티스토리 뷰
OECD에서 배포한 life satisfaction 데이터와 1인당 GDP를 합치는 함수를 정의하고, 데이터를 시각화하는 코드이다.
oecd_bli_2015.csv와 gdp_per_capita.csv는 구글링하면 찾을 수 있다.
출처: 《핸즈온 머신러닝》 2판(자료는 멘토님이 제공해주심)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
def prepare_country_stats(oecd_bli, gdp_per_capita):
oecd_bli = oecd_bli[oecd_bli["INEQUALITY"]=="TOT"]
oecd_bli = oecd_bli.pivot(index="Country", columns="Indicator", values="Value")
gdp_per_capita.rename(columns={"2015": "GDP per capita"}, inplace=True)
gdp_per_capita.set_index("Country", inplace=True)
full_country_stats = pd.merge(left=oecd_bli, right=gdp_per_capita, left_index=True, right_index=True)
full_country_stats.sort_values(by="GDP per capita", inplace=True)
remove_indices = [0, 1, 6, 8, 33, 34, 35]
keep_indices = list(set(range(36)) - set(remove_indices))
return full_country_stats[["GDP per capita", 'Life satisfaction']].iloc[keep_indices]
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn.linear_model
oecd_bli = pd.read_csv("oecd_bli_2015.csv", thousands=',')
gdp_per_capita = pd.read_csv("gdp_per_capita.csv", thousands=',', delimiter='\t', encoding='latin1', na_values="n/a")
country_stats = prepare_country_stats(oecd_bli, gdp_per_capita)
X = np.c_[country_stats["GDP per capita"]]
y = np.c_[country_stats["Life satisfaction"]]
country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction')
plt.show
|
cs |
이번 코드는 예시 코드를 정확하게 따라했는데도 몇 가지 문제가 있어서 구글링으로 열심히 수정했다.
일단 gdp_per_capita.set_index는 원래 gdp_per_capita.였는데 동작하지 않길래 검색으로 set_index를 추가해야 한다는 사실을 알게 됨. 뭐가 문제였을까?
그리고 원본은 다음처럼 datapath + 가 있었는데, 내가 빼버림.
oecd_bli = pd.read_csv(datapath + "oecd_bli_2015.csv", thousands=',')
gdp_per_capita = pd.read_csv(datapath + "gdp_per_capita.csv", thousands=',', delimiter='\t', encoding='latin1', na_values="n/a")
os를 import하면 datapath를 설정할 수 있다. 이렇게 했을 땐 작업 폴더 밑에 datasets 폴더, 그 밑에 lifesat 폴더가 새로 생긴다.
import os
datapath = os.path.join("datasets", "lifesat", "")
그리고 구글링해보니 이하처럼 github에서 파일을 알아서 받아 주는 코드도 있었다. 코드를 낼름 챙기려고 했지만 이미 두 파일 모두 구글링으로 얻어놓은 상태였음(ㅋㅋ) 어쨌든 기록해둔다.
import urllib
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
os.makedirs(datapath, exist_ok=True)
for filename in ("oecd_bli_2015.csv", "gdp_per_capita.csv"):
print("Downloading", filename)
url = DOWNLOAD_ROOT + "datasets/lifesat/" + filename
urllib.request.urlretrieve(url, datapath + filename)
'공부 > Python' 카테고리의 다른 글
20201120 DAY16 외부데이터 가져오기 (0) | 2020.11.20 |
---|---|
20201119 DAY15 외부데이터 가져오기 (0) | 2020.11.19 |
20201116 DAY12 네트워크 객체 다운로드 및 저장 (0) | 2020.11.16 |
20201113 DAY11 벡터의 덧셈과 뺄셈 (0) | 2020.11.13 |
20201113 DAY10 벡터 (0) | 2020.11.13 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- data annotation
- 빅데이터
- Notion2Tistory
- 데이터준전문가
- googlecolab
- 자격증
- 취업준비
- 자버
- Kaggle
- Til
- 이자포스터디
- 빅분기합격
- 빅분기후기
- 데이터분석
- 이력서
- 빅데이터분석기사
- 코드스테이츠
- 데이터과학
- github
- todayIlearned
- ADsP
- 인공지능
- 데이터준전문가합격후기
- ADsP합격후기
- ai부트캠프
- 빅분기
- 깃허브
- 커리어코칭
- 개발자포트폴리오
- 코테공부
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함