「회귀분석의 정의」

 

회귀분석(regression analysis)은 매개변수 모델(parametric model)을 이용하여 통계적으로 변수들 사이의 관계를 추정하는 분석방법이다. 주로 독립변수(independent variable)가 종속변수(dependent variable)에 미치는 영향을 확인하고자 사용하는 분석방법이다. 회귀분석은 다른 독립변수들을 고정시키고 한 가지 독립변수만을 변화시킬 때 종속변수가 어떻게 변화하는지를 확인한다. 종속변수와 관련이 있는 독립변수를 찾을 때, 또 독립변수들 간의 관계를 이해하고자 할 때 사용한다. 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 때 단순회귀분석(simple regression analysis)이라 하고, 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하고자 할 때 다중회귀분석(multiple regression analysis)이라 한다.

 

https://terms.naver.com/entry.naver?docId=5141772&cid=60266&categoryId=60266

 

회귀분석

회귀분석(regression analysis)은 매개변수 모델(parametric model)을 이용하여 통계적으로 변수들 사이의 관계를 추정하는 분석방법이다. 주로 독립변수(independent variable)가 종속변수(dependent variable)에 미

terms.naver.com

 

「단순회귀분석」

 

앞의 정의를 이해하기에는 사용된 용어들이 너무 어렵다. 몇 가지 용어를 쉬운 용어로 대체하여 이해해보자.

 

매개변수 모델은 ‘Y = α + βX + e’를 말한다. e는 잔차(오차)인데 e는 생략하고 일차방정식 ‘Y = α + βX’라고 생각하자. 오차가 없는 ‘Y = α + βX’는 직선으로 표현된 추세선이고 오차가 없기에 이상적 직선이다. 독립변수는 X를 말하며, 종속변수는 Y를 말한다.

 

즉, 일차방정식을 사용하여 X(독립변수)가 Y(종속변수)에 얼마나 영향을 미치는지 관계를 알아보는 분석이라고 이해해보자. 우리는 중고등학교 수학시간에 일차방정식을 공부하면서 β를 기울기(Slope), α를 절편(intercept)이라고 배웠다.

 

「최소제곱법(최소자승법), Ordinary Least Squares, OLS」

 

X와 Y는 이미 알고 있는 데이터 값이므로 추세선을 통한 회귀적 예측이란 α와 β를 구하는 과정을 말한다. 그렇다면 α와 β를 어떻게 찾을 수 있나? e(잔차)는 오차이므로 잔차가 최소인 부분을 찾으면 된다. 오차는 양수(추세선 보다 클 때), 음수(추세선 보다 작을 때)일 수도 있기 때문에, 잔차의 제곱의 합이 최소가 되는 추세선을 찾으면 된다. α는 절편으로 고정된 상수이므로 예측값 Y에 영향을 주지 않는다. X에 1단위 투입할 때 Y가 얼마나 변하는 기울기(변화량)를 말하는 β값을 알아내는 것이 중요하다

 

「모형해석」

 

설명력(R²)

R²는 결정계수로 0~1의 값을 가지며 1에 가까울수록 모형이 적합하다. 0.51이라면 이 모형은 51%의 설명력을 가진다라고 해석함

 

적합성(ANOVA표)

F값의 유의확률(P값)이 0.05보다 작아야지 모형이 적합하며, 0.05보다 크면 모형이 적합하지 않음을 의미한다.

 

결과해석(계수)

t값의 유의확률(P값)이 0.05보다 작아야지 X(독립변수)가 Y(종속변수)에 영향을 미치는 것이며, 0.05보다 크면 영향을 미치지 않음을 의미한다. β값만큼 영향을 미친다.

 


Comments.

 

이 내용은 스스로 회귀분석을 이해하기 위해 내방식대로 해석했기 때문에, 전문가들이 보기에 틀린 부분도 있으리라 생각한다. 보시는 분들은 큰 맥락만 이해하고 더 자세하고 세부적인 내용은 책이나 다른 분들이 쓰신 글을 참고하기를 바란다.

반응형

+ Recent posts