티스토리 뷰

 

※개인적인 생각이나 감상은 ://작은 글씨로 처리했다.

 

 

오리엔테이션

일정

- 스프린트 챌린지: 매주 금요일, 3시간 동안 시험.
- 섹션 챌린지: 매달 기말고사(헐) = 총 5회
- 프로젝트 1: 2주 / 2: 4주 
- 마지막 주에는 job searching.

 

// 앞으로의 일정을 설명하시던 코치님이 중세의 수도승을 언급하셨는데, 나는 이것을 '즉 다른 개인 일정보다 부트캠프를 우선으로 해 달라'는 말씀으로 이해했다. 이것은 사실 누구보다 배우는 사람 자신을 위한 제안으로, 부트캠프의 목표가 '커리어 전환'인 만큼 그 정도 각오가 없으면 목표를 달성하기 어렵기 때문이다. 물론 오늘은 첫날이니까 나는 수업 참여도 과제도 복습도 나름대로 열심히 했지만, 계속 최선을 다할 수 있으려면 학습 환경과 생활 루틴도 잘 조성해야 할 것 같다. 
- 단체생활의 규칙: 부트캠프 사전 안내 게시물에도 성별, 나이, 지역, 학력 등의 차별 언행이 있을 시 제지를 가한다고 나와 있었는데 OT 중에 리마인드해주셔서, 역시 지원하기를 잘했다고 생각했다. 

- 데이터를 기반으로 논리적인 설득을 할 수 있으면 내 말이 정답이 된다(=근거가 부족한 것과 논리적으로 틀린 것은 다르다): 나는 언제나 내 논리를 데이터로 증명하고 싶었고 내 예상이 틀리더라도 내가 수긍할 수 있는 데이터를 원했으므로, 이 공부를 시작하기를 잘한 것 같다. 

 

Session N111

학습목표 EDA와 pre-processing에 대해 이해하기


학습내용 메모 

categorical data에는 zip code 같은 것이 해당되는 모양이다.
다변수 분석은 데이터 간의 연관관계를 보고자 하는 것이다. cf. 다변량과 다변수는 같은 의미일까? 참고(클릭)
데이터 분석의 목표: 이 데이터를 통해서 무슨 insight를 얻을 수 있는가를 꼭 생각하자.

pre-processing의 순서: cleaning - intergration - transformation - reduction 

 

해결된 문제나 의문

- Colab과 Jupyterlab의 차이: 낯설긴 했지만 막상 만져보니 큰 차이는 없었다. 

- 리스트와 튜플의 차이: mutable(list), immutable(tuple)

- (과제 1번 데이터셋 불러오기 연습에서)sheet_name을 이름 대신 순서로 불러오는 꼼수로 해결 

- (과제 2번 데이터 확인에서)셀 개수의 총합을 세는 방법을 몰랐는데 sum을 쓰면 해결되는 문제였다…! 

- (과제 2번 데이터 확인에서)subplot으로 한 라인에 두 개의 그래프를 띄울 수 있다고 함. 나중에 꼭 직접 해보자. 

- (과제 2번 데이터 확인에서)df.set_index('칼럼명', inplace=True) #set_index: 현재 column으로 적용되어 있는 '칼럼명'을 index로 바꾸어 주는 메소드

 

아직 해결하지 못한 문제나 의문

Q. .csv 형식 dataset의 수치 중 comma가 있는데도 데이터가 문제없이 출력된 이유가 뭘까? 

Q. 튜플과 행렬은 무슨 차이?

Q. dict()의 정확한 기능이 궁금

 

그밖에 오늘 배운 것

Github 사용법, 영어의 중요성

stackoverflow/medium/documentation/towardsdatascience의 존재

어떤 function/method의 작동이 궁금할 때는: python에서 제공하는 다큐멘테이션에서 toy data(와 그 예시)를 볼 수 있음 

 

학습 내용에 대한 감상

- 데이터 세트 전체를 불러오기 전에 세트의 정보를 꼭 미리 확인하는 습관을 들일 것

- 어쨌든 나는 배우러 들어온 것이라는 점 잊지 말기
- 데이터의 입체감? 이라는 말은 처음 들어본다 
- 통계학 기초를 찍어먹고 온 게 너무 다행이다 

- 처음부터 모든 문제에 완벽하게 대답하려고 애쓰지 말기: 일단 답을 내는 것이 중요하고, 해결책을 고민하는 과정은 답보다도 더 중요하다!