티스토리 뷰
선형회귀Linear Regression
1. 단순선형회귀모델을 만들기 위해 전제되어야 하는 조건들
기본적으로 회귀분석은 ①선형성 ②독립성 ③등분산성 ④정규성 ⑤비상관성의 다섯 가지 요건을 만족하는 것을 전제한다.
①선형성 독립변수와 종속변수 간의 관계가 선형적(즉, 회귀계수와 독립변수의 선형적 조합이 종속변수로 표현된다는 뜻)
산점도를 통해 확인
②독립성 크게 1) 잔차와 독립변수의 값이 서로 독립인 것(단순회귀분석의 경우),
또는 2) 독립변수 간에 상관성이 없어야 하는 것(다중회귀분석의 경우)을 의미
③등분산성 잔차와 분산이 독립변수와 무관하게 일정(=잔차가 고르게 분포)
독립변수와 잔차에 대한 산점도를 통해 확인
④정규성 잔차항이 정규분포 형태(=잔차항의 평균이 0이고 분산이 일정)
QQplot에서 잔차가 우상향하는 직선의 형태를 띠는지로 확인
⑤비상관성 잔차끼리는 서로 무관(=독립)
Durbin-Watson 통계량으로 확인
※잔차residual와 오차error
오차는 모집단의 실제 값과 회귀선과의 차이로, 실제로 알아낼 수는 없는 값이다.
이를 대신하기 위해 표본에서의 관측값과 회귀선의 차이를 활용하는데, 이를 잔차라 한다.
한편 단순회귀분석이란 독립변수와 종속변수가 각각 1개씩일 때 둘 사이의 인과관계를 분석하는 것이다.
따라서 단순회귀분석의 회귀식은 다음과 같다.
Y = beta 0 + beta 1*X + error
2. 최소제곱법(OLS)에 대해서 본인의 언어로 설명하기
실제 관측치와 추세선에 의해 예측된 점 사이의 거리(=오차)를 제곱해 더한 값이 최소가 되도록 하는 것이 최소제곱법이다.
이때, 잔차는 양수 또는 음수가 될 수 있으므로 잔차의 단순합을 사용할 경우 0이 되는 추세선이 무수히 많이 생성될 수 있으므로 잔차의 제곱합을 사용한다.
'2021~2022 Codestates AI Bootcamp 08th > daily' 카테고리의 다른 글
37일차: 6th Sprint & Sprint Review (0) | 2021.11.05 |
---|---|
27일차: 4th Sprint & Sprint Review (0) | 2021.10.22 |
20일차: 1st Project & Sprint Review (0) | 2021.10.13 |
10일차(2): sprint challenge가 끝나고 (0) | 2021.09.27 |
10일차: 2nd Sprint & Sprint Review (0) | 2021.09.27 |
- Total
- Today
- Yesterday
- Notion2Tistory
- ADsP합격후기
- 자격증
- 자버
- todayIlearned
- 인공지능
- 빅분기후기
- googlecolab
- 이력서
- 코테공부
- 데이터과학
- 데이터준전문가합격후기
- 빅데이터
- ADsP
- Til
- 빅데이터분석기사
- 깃허브
- Kaggle
- github
- 취업준비
- 데이터분석
- 빅분기
- 코드스테이츠
- data annotation
- 데이터준전문가
- 개발자포트폴리오
- 빅분기합격
- 이자포스터디
- 커리어코칭
- ai부트캠프
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |