2020. 9. 4. 00:03ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 26차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 26회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
15. Ch 04. 다중 선형 회귀분석 - 04. 다중공선성 개념 이해 및 진단 방법
-
16. Ch 04. 다중 선형 회귀분석 - 05. 회귀 모형 성능 지표
-
15. Ch 04. 다중 선형 회귀분석 - 04. 다중공선성 개념 이해 및 진단 방법
-
다중공선성 (multicollinearity)
-
일부 설명변수가 다른 설명 변수와 상관관계 정도가 높아 회귀 분석 시 부정적인 영향을 미치는 현상
-
newspaper과 sales만을 가지고 단순선형회귀분석을 했을 때는 설명력이 매우 높았음 (p-value가 엄청나게 작았음)
-
그런데, 다중선형회귀분석을 하자, p-value = 0.8599가 나옴 (설명력이 없음)
-
다중공선성이 왜 발생할까?
-
독립변수 사이의 강한 상관관계때문
-
독립변수가 종속변수를 설명하는 변동성이 겹쳐서 발생
-
다른 변수와 설명력이 겹치면서 다중공선성이 발생
-
잘못된 변수 해석
-
예측 정확도 하락
-
진단방법
-
VIF (Variance Inflation Factor)를 이용
-
다른 변수의 선형 결합을 통해 특정 설명 변수를 설명할 수 있는 정도를 나타냄
-
VIF가 높다는 의미는 다른 변수와의 선형 결합을 통해 특정 설명 변수를 설명할 수 있다는 의미
-
일반적으로 VIF가 10 이상인 경우 (아래 식에서 R^2 > 0.9)
-
다중 공선성이 있는 변수라고 판단
-
특, 변수 하나를 종송변수로 놓고, 나머지 변수들을 독립변수로 하여 회귀 모형을 만들고,
-
이에 대한 결정 계수를 계산하여 위와 같이 VIF를 계산
-
R^2 = 1에 가까울 수록 VIF가 커짐
-
R^2 = 1에 가깝다는 이야기는 회귀모형의 설명력이 높다는 의미
-
즉, 변수xi를 다른 변수들로 설명할 수 있다. (종속되어 있다 = 상관관계가 높다)
-
16. Ch 04. 다중 선형 회귀분석 - 05. 회귀 모형 성능 지표
-
성능 평가 지표
-
회귀 변수의 예측력을 평가하기 위한 지표
-
예측값과 실제 값이 유사한 지 평가하는 지표
-
대표적으로 아래 5가지 척도를 사용하여 모델의 성능을 평가
-
Average Error
-
Mean Absolute Error (MAE)
-
Mean Absolute Percentage Error (MAPE)
-
Mean Squared Error (MSE)
-
Root Mean Squared Error (RMSE)
-
Average Error & Mean Absolute Error (MAE)
-
Average Error는 단순히 실제값과 예측 값의 에러 추정 (다만 +/-가 섞여 있으면 과소평가될 수 있음
-
Mean Absolute Error (MAE) - Average Error를 보완 - 절대값을 취한 것뿐~
-
Mean Absolute Percentage Error (MAPE)
-
상대적인 오차를 계산
-
아주 작은 값들을 다룰 때 많이 사용
-
Mean Squared Error (MSE)&Root Mean Squared Error (RMSE)
-
실제값과 예측값 사이의 오차 제곱의 평균
-
이 값에 root를 취했는 지 여부만 다름
다중공선성과 이를 진단하기 위한 VIF법에 대한 소개
-
개념은 아주 단순했음
-
하지만 아주 많이 사용하게 될 듯.
-
그런데, 이 강사는 이론만 설명하지 R로 어떻게 사용하는 지는 전혀 다루지 않고 있음
-
나중에 다음 강사가 소개를 해주지 않으면 직접 찾아서 공부해야할 듯?