import numpy as np ⊙ Boolean 값으로 선택하기 중복된 이름이 포함된 배열 names가 있다. numpy.random 모듈의 .randn 함수를 사용해 임의의 표준정규분포데이터를 생성한다. 각 이름이 data 배열의 row에 대응한다고 가정하자. names = np.array(['Bob', 'Joe', 'Will', 'Joe', 'Bob', 'Will', 'Joe']) data = np.random.randn(7, 4) 만약 전체 row에서 'Bob'과 같은 이름을 선택하려 할 때 산술 연산과 마찬가지로 배열에 대한 비교 연산도 벡터화되므로 names를 'Bob' 문자열과 비교하면 Boolean 배열을 반환한다. names == 'Bob' 쉽게 말해 'Bob'이면 True, 아니면 F..
Numpy를 복습했다. import numpy as np ◎ 연산 속도 비교 my_arr = np.arange(1000000) my_list = list(range(1000000)) 백만 개의 정수를 저장하는 numpy 배열과 list를 각각 하나씩 만들었다. 그런 다음 numpy 배열과 list 각각에 2를 곱하는 함수를 정의하고 연산에 걸리는 시간을 측정한다. (%) %time for _ in range(10): my_arr2 = my_arr * 2 %time for _ in range(10): my_list2 = [x * 2 for x in my_list] 사용하는 개발환경마다 속도는 다르겠으나 내 경우에는 32.4 ms / 1.11s로 전자가 월등히 빠른 것을 확인할 수 있었다. ◎ ndarray..
인턴십 완전 종료까지 계속 자료를 보내주신다고 하여, 감사한 마음으로 받고 있다. 오늘은 복수의 .csv 파일로부터 데이터를 적재하고 전처리를 합치는 함수를 살펴보자. def csv_reader_dataset(filepaths, repeat=None, n_readers=5, n_read_threads=None, shuffle_buffer_size=10000, n_parse_threads=5, batch_size=32): dataset = tf.data.Dataset.list_files(filepaths).repeat(repeat) dataset = dataset.interleave(lambda filepath: tf.data.TextLineDataset(filepath).skip(1), cycle_len..
통계 수치를 해석해본 내용 ①여성 가구주 비율에서 유배우 구성비가 점점 증가하는데, 2040년에는 감소할 것으로 예측한 것도 인상적. 이것은 여성의 소득 수준이 높아지고 경제력이 상승한다고 해석할 수도 있지만 남성들의 고용불안이 심해지면서 여성들이 '어쩔 수 없이' 가구주가 되었다고 볼 수도 있다. 어쨌거나 이것은 남성부양자모델이 사실이 아님을 뒷받침할 훌륭한 자료로 활용할 수도 있지 않을까? 연령대별 여성 고용률이 45~49세 구간에서 다시 올라가는 것에 대한 해석, 그러니까 저임금 고강도 노동 일자리로 '경력단절' 여성이 유출되는 것에 대한 관측과 연결해서 이해한다면 더더욱 그렇게 느껴진다. ②여성 국회의원 및 장관 비율 2페이지의 두 그래프에서 가로축(연도)가 서로 맞지 않는데 맞추었으면 좋지 않았..
오늘부터 매일매일 공부한 내용을 '오늘공부'로 블로그에 정리하려고 한다. 새해 첫 포스팅이 되는 오늘공부는 뉴스젤리에서 발행한 '2020 데이터 시각화로 보는 여성의 삶'. newsjel.ly/archives/newsjelly-report/visualization-report/13029 2020 데이터 시각화로 보는 여성의 삶 2020년 여성은 어떤 삶을 살고 있을까요? 숫자와 데이터를 통해 확인해봅시다. 통계청과 여성가족부는 매년 양성평등 주간에 2020 여성의 삶 리포트를 발행합니다. 생활 전반에서의 여성의 삶이 newsjel.ly 위 기사에서 사용한 원자료는 통계청에서 발표한 다음 자료이다. kostat.go.kr/assist/synap/preview/skin/doc.html?fn=synapview..
이정인 기술사님의 파이썬 핵심함수 특강 2강의 내용이다. 이번 2강의 내용은 html의 기본적인 구조에 대해서 알고 있으면 유리하다. import urllib.request d = urllib.request.urlopen("http://www.naver.com/") naver를 호출했다. 이제 본문에 해당하는 html을 data라는 키워드로 호출할 수 있게 해보자. 이때 이 html의 인코딩 방식이 무엇인지 알려주어야 한다. 보편적으로는 utf-8. data = d.read() data = data.decode("utf-8") for문으로 header에 있는 정보들을 반복해서 출력한다. status=d.getheaders() for s in status: print(s) 다음으로 우리가 서버에 요청해서 ..
출처: 《Python for Data Analysis》 #re 표준 라이브러리 사용 import re #문자열 메서드 활용하는 함수 정의 def clean_strings(strings): result = [] for value in strings: value = value.strip() value = re.sub('[!#?]', '', value) value = value.title() result.append(value) return result 아니면 이렇게 할 수도 있다. def remove_punctuation(value): return re.sub('[!#?]', '', value) clean_ops = [str.strip, remove_punctuation, str.title] def clea..
- Total
- Today
- Yesterday
- 코드스테이츠
- data annotation
- 인공지능
- 데이터과학
- ai부트캠프
- 이력서
- 커리어코칭
- googlecolab
- 빅데이터
- 데이터준전문가합격후기
- ADsP합격후기
- 취업준비
- todayIlearned
- 개발자포트폴리오
- 자버
- 빅분기합격
- ADsP
- 빅분기
- Notion2Tistory
- 깃허브
- github
- Til
- 데이터분석
- 빅데이터분석기사
- 코테공부
- 이자포스터디
- 데이터준전문가
- 자격증
- Kaggle
- 빅분기후기
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |