20201120 DAY16 외부데이터 가져오기

티스토리 뷰

공부/Python

20201120 DAY16 외부데이터 가져오기

eℓlie 2020. 11. 20. 09:43

pd.read_csv() csv 파일을 읽어들인다.

head() 첫 5개 행을 반환한다(이때까진 보통 확인용으로 많이 썼던 함수).

info() 데이터프레임에 대한 간결한 요약을 출력한다. 로우/컬럼의 갯수나 데이터 타입 같은 걸 알려준다.

value_counts() 한국어로는 범주형 특성의 각 유형값의 개수를 반환한다... 고 되어 있는데 return a series containing counts of unique values라고 하면 유일한 값의 수를 가지는 집합을 반환한다는 뜻이니까, 데이터가 만약 AAABBCC 이렇게 있으면 A 3, B 2, C 1 이런 식으로 출력해 주는 것 같다.

추가: 이게↑ 정확히 무슨 뜻인가 하고 구글링을 하다 보니 unique() 라는 함수로 유일한 값을 찾을 수 있다는 것도 알아서 여기에 적어둔다.

describe() 기술통계 정보를 제공한다.

출처: 《핸즈온 머신러닝》 2판(자료는 멘토님이 제공해주심)

아무튼 원본 코드(18행까지는 어제와 같고 20행부터 이어짐)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

import os
import tarfile
import urllib
 
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing") 
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"
 
def fetch_housing_data(housing_url = HOUSING_URL, housing_path = HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
 
fetch_housing_data()
 
import pandas as pd
 
def load_housing_data(housing_path = HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)
 
housing=load_housing_data()
 
housing.head()
housing.info()
housing["ocean_proximity"].value_counts()
housing.describe()
Colored by Color Scripter

cs

결과는 이렇다.

'공부 > Python' 카테고리의 다른 글

20201124 DAY18 외부 데이터 가져오기 예제 (0)	2020.11.24
20201123 DAY17 OECD 데이터 표현 예제 (0)	2020.11.23
20201119 DAY15 외부데이터 가져오기 (0)	2020.11.19
20201117 DAY13 OECD 데이터 시각화 (0)	2020.11.17
20201116 DAY12 네트워크 객체 다운로드 및 저장 (0)	2020.11.16

공지사항

자기소개

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

Just keep swimming!

티스토리 뷰

20201120 DAY16 외부데이터 가져오기

'공부 > Python' 카테고리의 다른 글

티스토리툴바