머신러닝

회귀분석이란 무엇이고 언제 쓸까?(통계학)

주니코니 2023. 9. 9. 23:27

목차 

회귀분석 종류

선형회귀분석의 종류

기울기=회귀계수=가중치

상관계수는 회귀계수와 같나

분산과 표준편차

편차=잔차=오차

최소제곱법

회귀식의 적합도(결정계수)

회귀계수 검정(귀무-연구가설)


아래 내용은 강서대학교 이상철 교수님 수업을 정리한 것입니다!

 


회귀분석 종류

선형회귀분석 : 경영학쪽에서 

비선형회귀분석: 자연과학(의 시계열)

로지스틱회귀분석 : 금융(분류라서)

 

 

선형회귀분석의 종류

단순 선형회귀분석 : 사회과학쪽에서 잘 쓰이지 x => 독립변수가 하나인 경우는 드물어서

다중 선형회귀분석 :  독립변수가 여러개인 경우

 

 

기울기=회귀계수=가중치

수학에서는 기울기

통계학에서는 회귀계수(0~1값)라고 한다

계수란 관련성을 수치화한 것(정수화)

데이터마이닝에선 가중치라고 한다

 

 

상관계수는 회귀계수와 같나

상관계수란 값(데이터)끼리 얼마나 모여있나

회귀계수(베타)란 x의 변화에 따른 y의 변화를 나타내는 것

 

분산과 표준편차

평균으로부터 데이터가 떨어진 거리(제곱)

분산에 루트 씌어준 것이 표준편차

 

 

편차=잔차=오차

기준점이 다를뿐 같은 용어다!

통계학에서는 편차 : 평균으로부터의 데이터들의 거리

회귀분석에서는 잔차 : (x와 y의 관계를 나타내는) 회귀직선으로부터의 거리

데이터마이닝에서는 오차 : 성능평가에서 사용

 

=> 분산, 거리, 편차, 잔차, 오차 다 같은 말입니다~

 

 

최소제곱법

직선으로부터의 데이터들의 거리를 최소한이 되도록(거리니까 제곱) 회귀계수(기울기)를 추정하는 방법이다(미분)

선형회귀란 x,y의 관계를 나타내는 (최적의) 직선을 구하는 것이 핵심인데 최소제곱법으로 알 수 있다!

(제곱을 하면 2차식이 되니까 그래프는 포물선이 되고 최소지점은 기울기가 0인 점이 된다)

 

 

회귀식의 적합도(결정계수)

회귀모형이 얼마나 종속변수를 잘 설명하고 있는가 => 결정계수

결정계수란 다른 말로 설명력이라 할 수 있다(전체 중 회귀직선이 몇퍼센트 답을 맞췄니!)

 

회귀계수 검정(귀무-연구가설)

귀무가설 : 두 변수 간에는 인과관계(영향력)이 없다 = 0

연구가설 : 두 변수 간에는 인과관계(영향력)이 있다 != 0

여기서 인과관계(영향력)이란 기울기를 말한다