
train_test_split() 훈련 데이터와 테스트 데이터를 분리한다. income_cat_proportions() 상대적인 비율 값을 가져오기 위해 정의(def)하는 사용자 함수. 출처: 《핸즈온 머신러닝》 2판(자료는 멘토님이 제공해주심) 원본 코드. 역시나 앞은 DAY15~17과 동일하고 오늘 코드는 43행부터 시작한다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 import os import tarfile i..

pd.cut() 연속형 변수를 범주형 변수(bins)로 변경하는 함수이다. value_counts() 범주형 변수의 유형값에 대한 개수를 구한다. hist() 히스토그램을 표시한다. 출처: 《핸즈온 머신러닝》 2판(자료는 멘토님이 제공해주심) 원본 코드. 34행까지는 DAY 16과 동일하다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 import os import tarfile import urllib DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handson-ml2/mast..

pd.read_csv() csv 파일을 읽어들인다. head() 첫 5개 행을 반환한다(이때까진 보통 확인용으로 많이 썼던 함수). info() 데이터프레임에 대한 간결한 요약을 출력한다. 로우/컬럼의 갯수나 데이터 타입 같은 걸 알려준다. value_counts() 한국어로는 범주형 특성의 각 유형값의 개수를 반환한다... 고 되어 있는데 return a series containing counts of unique values라고 하면 유일한 값의 수를 가지는 집합을 반환한다는 뜻이니까, 데이터가 만약 AAABBCC 이렇게 있으면 A 3, B 2, C 1 이런 식으로 출력해 주는 것 같다. 추가: 이게↑ 정확히 무슨 뜻인가 하고 구글링을 하다 보니 unique() 라는 함수로 유일한 값을 찾을 수 있..

os.path.join() 경로명을 생성하는 함수 urllib.request.urlretrieve() 네트워크를 통해 해당 url의 파일을 로컬 경로로 다운로드한다. tarfile.open() 경로명 name에 대한 tarfile 객체를 반환한다. extractall() tarfile 객체에 대해 압축을 해제한다. 출처: 《핸즈온 머신러닝》 2판(자료는 멘토님이 제공해주심) 원본 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import os import tarfile import urllib DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/" HOUSING_PATH =..

OECD에서 배포한 life satisfaction 데이터와 1인당 GDP를 합치는 함수를 정의하고, 데이터를 시각화하는 코드이다. oecd_bli_2015.csv와 gdp_per_capita.csv는 구글링하면 찾을 수 있다. 출처: 《핸즈온 머신러닝》 2판(자료는 멘토님이 제공해주심) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 def prepare_country_stats(oecd_bli, gdp_per_capita): oecd_bli = oecd_bli[oecd_bli["INEQUALITY"]=="TOT"] oecd_bli = oecd_bli.pivot(index="Country", columns="Indicator", va..

os.path.join(): 하나 이상의 경로를 결합한다. os.makedirs(): 디렉토리를 생성한다. exist_ok = True이면 폴더가 존재하지 않을 경우 생성하고 존재할 경우에는 아무것도 하지 않음(해봤는데 False로 놓아도 큰 차이가 없는 것 같다. 뭐지?). urlretrieve(): url로 표시된 네트워크 객체, 즉 url 주소에 해당하는 문서를 로컬 파일로 저장한다. 코드 1 2 3 4 5 6 7 8 9 10 11 import os datapath = os.path.join("datasets", "lifesat", "") import urllib.request DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handso..
파이썬에서의 벡터의 표현과 전치를 알아봤다. 마침 이번 학기에 선형대수학을 수강하고 있어서 약간 반가움(?). 원래 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 import numpy as np a = np.array([2, 1]) print(a) type(a) c = np.array([[1, 2], [3, 4]]) print(c) d = np.array([[1], [2]]) print(d) print(d. T) cs 8행과 11행에서 바깥쪽 []를 하나 빼먹으면 다음과 같은 오류가 난다. 이 오류에 대해서 이해하고 싶은데 좀 이따 찾아봐야겠다. --------------------------------------------------------------------------- Ty..
- Total
- Today
- Yesterday
- ADsP
- googlecolab
- 개발자포트폴리오
- Til
- 취업준비
- Notion2Tistory
- 커리어코칭
- 데이터분석
- 코드스테이츠
- Kaggle
- 빅분기
- 데이터준전문가합격후기
- data annotation
- ADsP합격후기
- 깃허브
- 이자포스터디
- 이력서
- 데이터과학
- 자격증
- 빅분기합격
- 데이터준전문가
- ai부트캠프
- 코테공부
- todayIlearned
- 인공지능
- 빅데이터분석기사
- 빅데이터
- 자버
- 빅분기후기
- github
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |