카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 26차 미션

열린세계 2020. 9. 4. 00:03

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 26차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 26회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 15. Ch 04. 다중 선형 회귀분석 - 04. 다중공선성 개념 이해 및 진단 방법

  2. 16. Ch 04. 다중 선형 회귀분석 - 05. 회귀 모형 성능 지표

 

 

  1. 15. Ch 04. 다중 선형 회귀분석 - 04. 다중공선성 개념 이해 및 진단 방법

    1. 다중공선성 (multicollinearity)

      1. 일부 설명변수가 다른 설명 변수와 상관관계 정도가 높아 회귀 분석 시 부정적인 영향을 미치는 현상

        1. newspaper과 sales만을 가지고 단순선형회귀분석을 했을 때는 설명력이 매우 높았음 (p-value가 엄청나게 작았음)

        2. 그런데, 다중선형회귀분석을 하자, p-value = 0.8599가 나옴 (설명력이 없음)

      2. 다중공선성이 왜 발생할까?

        1. 독립변수 사이의 강한 상관관계때문

        2. 독립변수가 종속변수를 설명하는 변동성이 겹쳐서 발생

          1. 다른 변수와 설명력이 겹치면서 다중공선성이 발생

            1. 잘못된 변수 해석

            2. 예측 정확도 하락

    2. 진단방법

      1. VIF (Variance Inflation Factor)를 이용

        1. 다른 변수의 선형 결합을 통해 특정 설명 변수를 설명할 수 있는 정도를 나타냄

        2. VIF가 높다는 의미는 다른 변수와의 선형 결합을 통해 특정 설명 변수를 설명할 수 있다는 의미

        3. 일반적으로 VIF가 10 이상인 경우 (아래 식에서 R^2 > 0.9)

          1. 다중 공선성이 있는 변수라고 판단

          1. 특, 변수 하나를 종송변수로 놓고, 나머지 변수들을 독립변수로 하여 회귀 모형을 만들고,

          2. 이에 대한 결정 계수를 계산하여 위와 같이 VIF를 계산

          3. R^2 = 1에 가까울 수록 VIF가 커짐

            1. R^2 = 1에 가깝다는 이야기는 회귀모형의 설명력이 높다는 의미

              1. 즉, 변수xi를 다른 변수들로 설명할 수 있다. (종속되어 있다 = 상관관계가 높다)

  2. 16. Ch 04. 다중 선형 회귀분석 - 05. 회귀 모형 성능 지표

    1. 성능 평가 지표

      1. 회귀 변수의 예측력을 평가하기 위한 지표

        1. 예측값과 실제 값이 유사한 지 평가하는 지표

        2. 대표적으로 아래 5가지 척도를 사용하여 모델의 성능을 평가

          1. Average Error

          2. Mean Absolute Error (MAE)

          3. Mean Absolute Percentage Error (MAPE)

          4. Mean Squared Error (MSE)

          5. Root Mean Squared Error (RMSE)

      2. Average Error & Mean Absolute Error (MAE)

        1. Average Error는 단순히 실제값과 예측 값의 에러 추정 (다만 +/-가 섞여 있으면 과소평가될 수 있음

        2. Mean Absolute Error (MAE) - Average Error를 보완 - 절대값을 취한 것뿐~

        3. Mean Absolute Percentage Error (MAPE)

          1. 상대적인 오차를 계산

            1. 아주 작은 값들을 다룰 때 많이 사용

        4. Mean Squared Error (MSE)&Root Mean Squared Error (RMSE)

          1. 실제값과 예측값 사이의 오차 제곱의 평균

            1. 이 값에 root를 취했는 지 여부만 다름

 

다중공선성과 이를 진단하기 위한 VIF법에 대한 소개

  • 개념은 아주 단순했음

  • 하지만 아주 많이 사용하게 될 듯.

  • 그런데, 이 강사는 이론만 설명하지 R로 어떻게 사용하는 지는 전혀 다루지 않고 있음

  • 나중에 다음 강사가 소개를 해주지 않으면 직접 찾아서 공부해야할 듯?