2020. 9. 2. 08:27ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 24차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 24회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
11. Ch 03. 단순 선형 회귀분석 - 04. 단순 선형 회귀 모형의 적합도 평가 및 진단
-
12. Ch 04. 다중 선형 회귀분석 - 01. 다중 선형 회귀분석 개요
-
11. Ch 03. 단순 선형 회귀분석 - 04. 단순 선형 회귀 모형의 적합도 평가 및 진단
-
SST = SSE + SSR
-
종속변수의 총변동 = 회귀직선에 의해 설명되는 변동 SSR (평균과 회귀값의 차이)과 회귀직선에 의해 설명되지 않는 변동 SSE로 구성 (잔차는 얼마가 될 지 설명이 안됨)
-
즉, 좋은 회귀직선이라고 하려면
-
SSE보다 SSR이 커야한다.
-
여기서 나온 개념이 결정 계수 R^2
-
결정계수 R^2은 회귀 모형의 적합도를 평가하기 위해 사용되는 대표적인 평가지표
-
결정계수는 종속변수의 전체 변동 중 회귀 직선에 의해 설명되는 변동의 비율 [0, 1]의 범위를 가짐
-
R^2 = 1: 회귀직선으로 y의 총변동이 완전히 설명됨 (모든 표본들이 회귀 직선 위에 있음
-
R^2= 0: 추정된 회귀직선은 x와 y의 관계를 전혀 설명하지 못함.
-
수정 결정계수
-
기존 결정계수는 유의하지 않은 변수가 추가되어도 항상 증가
-
따라서 변수의 개수가 늘어날 경우, 이를 보정하기 위해서 앞에 계수를 곱해줌
-
선형 회귀 모델의 기본 가정
-
회귀 분석의 3가지 가정
-
정규성: 잔차의 분포가 평균이 0인 정규 분포를 따름
-
독립성: 잔차는 서로 독립적
-
등분산성: 잔차의 분산이 동일함
-
결국 '잔차 분석을 통해 회귀 모델이 해당 가정을 잘 만족하는 지 확인함
-
잔차plot
-
잔차가 트렌드를 가지고 있으면 안됨
-
트렌드 없이 랜덤하게 분포
-
qqplot
-
일직선이 되면 독립이란 의미
-
잔차 vs. fitted plot을 통해 잔차의 가정을 진단
-
12. Ch 04. 다중 선형 회귀분석 - 01. 다중 선형 회귀분석 개요
-
x가 1개: 단순 선형 회귀 분석
-
x가 여러개: 다중 선형 회귀 분석
한동안 답답했는데,
SSE와 SSR의 개념, 그리고 결정계수의 의미가 나왔음
수정 결정계수까지..
선형회귀를 하면 결정계수와 수정결정계수가 다 표시되는데, 그것들이 어떤 의미인지 다시 한번 확인.
수정결정계수가 좀 더 좋다고 이해하면 될 듯