티스토리 뷰

13:00~16:00

① sprint 2 모범답안과 내 답안을 비교하는 시간을 가졌다. 

- 문제를 잘 풀어놓고서는 답이 정확하게 표시되지 않는 방식으로 출력한 채 그대로 제출한 문항을 발견했다. 

- 정답이 틀린 것보다 풀이 과정이 지저분하거나 리소스를 지나치게 많이 쓰는 방식으로 코드를 짠 경우가 압도적으로 많았다. 

- pull request 했다고 생각했는데 아예 제출되지 않은 과제를 발견하고 뒤늦게 제출했다. (N123)

 

② sprint challenge 번외에 도전

- 과제로 받은 데이터를 살펴보다가 marital status라는 feature에 관심이 생겨서 카테고라이징을 진행해 보았다. 

이 feature에는 일반적으로 생각하는 single/married 외의 카테고리가 있는 것을 확인할 수 있었다. 

(absurd, alone, divorced, married, single, together, widow, yolo) 

의미를 잘 알 수 없었던 absurd를 제외하고 현재 동거인 유무만을 기준으로 카테고리를 다시 이분화했다. 

즉 alone, divorced, single, widow, yolo를 묶어 alone으로 / 나머지 together, married를 묶어 together로 

(참고로 과감하게 absurd를 뺄 수 있었던 것은 해당 속성의 데이터가 둘밖에 되지 않았기 때문이다)

그런데 이 두 개로 재분류하는 데도 한참 걸려서… 풀지 못한 문제를 풀어볼 시간적인 여유가 없었다. 

 

16:00~17:00: sprint 2 wrap-up

sprint 2에서 다루었던 내용에 대한 질문답변 시간이다. 

 

- statistics를 보겠다는 것은 우리가 population에 대한 어떠한 가정을 갖고 있다는 뜻과 같다.

그러므로 statistics라는 표현을 보았을 때 sample을 가장 먼저 떠올려야 한다. 

 

- Q. 다음 코드에서 n과 p, size가 하는 역할은 무엇인가? 

np.random.binomial(n = 10, p = 0.5, size = 100)

 

A. binomial이므로 이항분포 확률, 각 항이 나올 확률(p)은 0.5

n은 1세트에서 시행하는 횟수, size는 몇 세트를 했는지(즉 n*size = 최종적으로 시행하는 횟수) 

(결과값은 array 형태로 출력된다.)

 

- non-parametric methods란 무엇인지, 어떨 때 사용하는지

(마침 어제 출석수업에서 다룬 내용이기도 했고, 이 개념을 처음 알았을 때부터 매우 흥미롭게 생각했기 때문에 설명할 수 있을 것 같았다.)

모집단이 어떠한 형태의 분포를 갖춘다고 예상하기 어려운 경우('모수를 따르지 않는 경우'와 같은 말이다) 우리는 non-parametric method를 사용할 수 있다. 특히 outlier는 데이터가 정규분포의 형태를 갖추지 못하게 한다(흐트러뜨린다). 그러므로 outlier가 두드러지는 데이터의 경우 이 분석방법을 사용할 수밖에 없다. 

 

- 분산의 중요성

평균이라는 한 점만으로는 데이터 전체의 개형을 이해할 수 없다. 데이터가 흩어진 정도, 각 점과 점 사이의 차이를 알기 위해서 분산을 관심 있게 살펴보는 것이다. 데이터를 다루면서 결국 가장 중요하게 살펴보게 되는 것은 절대성보다는 상대성이고, 평균을 뺀다는 것은 절대성을 제거한다는 뜻과 같다. 

☞ 나중에 다루게 될 error function에서도 분산이 활용될 것 같다. 

 

17:00~18:00: 회고

코치님의 질문에 대답하면서 회고하는 시간. 

받았던 질문과 나의 대답을 그대로 올려본다. 

 

느낀 점과 배운 점 
느낀 점: 부트캠프에서 배우는 것을 개인 공부로 정리해야 최종적인 목표에 도달할 수 있을 것 같습니다.
배운 점: 성실해야 잘할 수 있고 잘하려면 성실해야 하는 것 같습니다.

 

학습 과정에서 아쉽거나 어려웠던 점과 그 원인, 어떻게 보완하고 싶은지 

수업이나 과제에서 다루는 내용 그 자체의 난도보다는 집중이 잘 되지 않아 막막했습니다. 온라인 수업이라는 점이 큰 이유가 아닐까 생각됩니다. 퇴근(?) 후에도 최소 한두 시간 정도는 복습하는 루틴을 확립해야겠습니다. 

 

부트캠프에서 알게 된 나의 강점/약점, 강점의 활용과 약점의 보완 방법

수식 혹은 수리적 개념을 문장으로 풀어서 설명할 수 있습니다. 그 반대도 어렵지는 않습니다. → 동기들과 서로 질문-답변을 반복해야겠습니다. 
하지만 체력이 딸리는데 게으르기까지 합니다. → 퇴근 후에도 반드시 공부에 집중하는 시간을 최소 1시간 정도는 확보하려고 합니다. 

 

부트캠프 이후의 나의 모습은?
일단 당장은 커리어를 전환하고 싶고 데이터 과학으로 돈을 벌고 싶어요. 최종적으로는 외국에서 공부나 일을 하고 싶습니다. (제발… 이제 독립하고 싶음 😂)

 

 

번외로, 데이터 분석가/데이터 과학자 취업으로의 가능성에 대해 코치님께 질문하고 받은 답변 중 인상적인 내용을 정리하자면 다음과 같다. 

꼭 통계학, 컴퓨터 공학 전공자, 석사학위 보유자가 아니어도 취업으로의 가능성은 열려 있다. 해외라면 더욱 그렇다. 

(영어 못 한댔더니 영어 안 쓰는 나라 출신자들도 취업 잘 한다고 하심) 

하지만 수학적인 이해도는 높아야 한다. 

만약 석사를 한다면 이공계열에 해당하는 컴퓨터공학을 전공할 것을 단연코 추천한다. 

 

 


😂😂😂 이렇게 2주차가 끝났다. 

게으르고 낡고 지친 나를 어떻게 잘 달래서 다음 sprint도 잘 이수해 보자. 

다음주 sprint challenge에서는 부디 모든 문제를 시간 안에 풀 수 있기를…!