티스토리 뷰

 

선형회귀Linear Regression

1. 단순선형회귀모델을 만들기 위해 전제되어야 하는 조건들

기본적으로 회귀분석은 ①선형성 ②독립성 ③등분산성 ④정규성 ⑤비상관성의 다섯 가지 요건을 만족하는 것을 전제한다.

①선형성 독립변수와 종속변수 간의 관계가 선형적(즉, 회귀계수와 독립변수의 선형적 조합이 종속변수로 표현된다는 뜻)
산점도를 통해 확인

 

②독립성 크게 1) 잔차와 독립변수의 값이 서로 독립인 것(단순회귀분석의 경우),
또는 2) 독립변수 간에 상관성이 없어야 하는 것(다중회귀분석의 경우)을 의미

 

③등분산성 잔차와 분산이 독립변수와 무관하게 일정(=잔차가 고르게 분포)
독립변수와 잔차에 대한 산점도를 통해 확인

 

④정규성 잔차항이 정규분포 형태(=잔차항의 평균이 0이고 분산이 일정)
QQplot에서 잔차가 우상향하는 직선의 형태를 띠는지로 확인

 

⑤비상관성 잔차끼리는 서로 무관(=독립)
Durbin-Watson 통계량으로 확인

※잔차residual와 오차error
오차는 모집단의 실제 값과 회귀선과의 차이로, 실제로 알아낼 수는 없는 값이다.
이를 대신하기 위해 표본에서의 관측값과 회귀선의 차이를 활용하는데, 이를 잔차라 한다.

한편 단순회귀분석이란 독립변수와 종속변수가 각각 1개씩일 때 둘 사이의 인과관계를 분석하는 것이다.
따라서 단순회귀분석의 회귀식은 다음과 같다.

Y = beta 0 + beta 1*X + error


2. 최소제곱법(OLS)에 대해서 본인의 언어로 설명하기

실제 관측치와 추세선에 의해 예측된 점 사이의 거리(=오차)를 제곱해 더한 값이 최소가 되도록 하는 것이 최소제곱법이다.
이때, 잔차는 양수 또는 음수가 될 수 있으므로 잔차의 단순합을 사용할 경우 0이 되는 추세선이 무수히 많이 생성될 수 있으므로 잔차의 제곱합을 사용한다.