회귀분석이란 무엇이고 언제 쓸까?(통계학)
목차
회귀분석 종류
선형회귀분석의 종류
기울기=회귀계수=가중치
상관계수는 회귀계수와 같나
분산과 표준편차
편차=잔차=오차
최소제곱법
회귀식의 적합도(결정계수)
회귀계수 검정(귀무-연구가설)
아래 내용은 강서대학교 이상철 교수님 수업을 정리한 것입니다!
회귀분석 종류
선형회귀분석 : 경영학쪽에서
비선형회귀분석: 자연과학(의 시계열)
로지스틱회귀분석 : 금융(분류라서)
선형회귀분석의 종류
단순 선형회귀분석 : 사회과학쪽에서 잘 쓰이지 x => 독립변수가 하나인 경우는 드물어서
다중 선형회귀분석 : 독립변수가 여러개인 경우
기울기=회귀계수=가중치
수학에서는 기울기
통계학에서는 회귀계수(0~1값)라고 한다
계수란 관련성을 수치화한 것(정수화)
데이터마이닝에선 가중치라고 한다
상관계수는 회귀계수와 같나
상관계수란 값(데이터)끼리 얼마나 모여있나
회귀계수(베타)란 x의 변화에 따른 y의 변화를 나타내는 것
분산과 표준편차
평균으로부터 데이터가 떨어진 거리(제곱)
분산에 루트 씌어준 것이 표준편차
편차=잔차=오차
기준점이 다를뿐 같은 용어다!
통계학에서는 편차 : 평균으로부터의 데이터들의 거리
회귀분석에서는 잔차 : (x와 y의 관계를 나타내는) 회귀직선으로부터의 거리
데이터마이닝에서는 오차 : 성능평가에서 사용
=> 분산, 거리, 편차, 잔차, 오차 다 같은 말입니다~
최소제곱법
직선으로부터의 데이터들의 거리를 최소한이 되도록(거리니까 제곱) 회귀계수(기울기)를 추정하는 방법이다(미분)
선형회귀란 x,y의 관계를 나타내는 (최적의) 직선을 구하는 것이 핵심인데 최소제곱법으로 알 수 있다!
(제곱을 하면 2차식이 되니까 그래프는 포물선이 되고 최소지점은 기울기가 0인 점이 된다)
회귀식의 적합도(결정계수)
회귀모형이 얼마나 종속변수를 잘 설명하고 있는가 => 결정계수
결정계수란 다른 말로 설명력이라 할 수 있다(전체 중 회귀직선이 몇퍼센트 답을 맞췄니!)
회귀계수 검정(귀무-연구가설)
귀무가설 : 두 변수 간에는 인과관계(영향력)이 없다 = 0
연구가설 : 두 변수 간에는 인과관계(영향력)이 있다 != 0
여기서 인과관계(영향력)이란 기울기를 말한다