[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 27차 미션

2020. 9. 5. 16:49카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 27차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 27회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 17. Ch 04. 다중 선형 회귀분석 - 06. 변수 선택법

  2. 01. Ch 01. 지도학습 개요 - 01. 지도학습(Supervised Learning)의 개념 이해

 

  1. 17. Ch 04. 다중 선형 회귀분석 - 06. 변수 선택법

    1. 여러가지 변수가 있을 때

      1. 변수의 독립성이 만족되면, 변수의 개수가 증가할수록 모델의 성능이 향상디ㅗㅁ

      2. 하지만, 현실에서는 독립성이 만족되지 않기에, 변수의 개수가 일정 수준 이상 증가하면 모델의 성능이 저하됨

    2. 따라서 아래의 방법론을 기반으로 최적의 변수 조합을 찾게됨

      1. 전진 선택법 (feedforward selection)

      2. 후진 소거법 (backward elimination)

      3. 단계적 선택법 (stepwise selection)

    3. 변수 선택 평가 지표

      1. 아래의 방법을 활용

        1. AIC (Akaike Information Criteria) - 낮을 수록 좋음

        2. BIC (Bayesian information Criteria)

        3. 수정결정계수

      2. 결국 3가지 다, SSE와 변수의 개수를 이용한 지표

    4. 전진 선택법

      1. AIC가 낮을 수록 좋음!

      2. 여러 변수 중, 하나만을 이용하여, AIC를 계산

        1. 제일 AIC가 낮은 변수를 선택

        2. 그 다음, 2번재 변수를 추가

          1. 제일 낮은걸 선택

          2. 이 과정을 반복

        3. 그러다가, 더이상 AIC가 낮아지지 않는 단계가 오면 변수 추가를 종료

      3. 단점: 일단 추가된 변수는 계속 포함된다는 점

    5. 후진 소거법

      1. 전진선택법과 반대

        1. 모든 설명변수를 사용하여 구축한 모델로부터 가장 의미가 적은 변수를 하나씩 제거

        2. 하나씩 제거하면 AIC가 조금씩 낮아짐

        3. 그러다가 더이상 낮아지지 않는 단계에서 변수 제거를 종료

      2. 단점: 일단 제거된 변수는 영원히 제거됨

    6. 단계적 선택법

      1. 전진 선택법과 후진 소거법을 조합하여 사용

        1. 우선 전진선택법을 3번 진행

          1. 그 후, 다시 제거를 해보는 과정을 번갈아 함

        2. 그러다 더이상 성능 개선이 없으면 종료

  2. 01. Ch 01. 지도학습 개요 - 01. 지도학습(Supervised Learning)의 개념 이해

    1. 학습

      1. 지도학습

      2. 비지도학습

    2. 강화학습은 엄밀히 말하면 지도학습에 포함됨

    3. 지도학습

      1. 정답이 있는 데이터를 분석

      2. 라벨링이 있는 데이터를 분석한다고 봄

      3. 꽃들이 있을 때, 각각, 장미, 국화, 개나리 등이 구분되어 있는 상태에서 이를 분류

        1. 그 후, 새로운 데이터가 들어왔을 때, 어느 항목인지를 결정

    4. 비지도학습

      1. 정답이 없는 데이터를 분석

      2. 그냥 데이터가 있고 이를 군집화 (클러스터링)

        1. 따라서, 이름은 우리가 붙여야 함...

 

 

 

변수 선택법은 나름 의미가 있었음.

개념은 어렵지 않았고, 과정이 복잡하긴 한데, 아마도 R에 이를 자동으로 해주는 라이브러리가 있을 듯.

그러면 단계적 선택법만 쓰게 되지 않을까 싶음.

데이터 입력하고 단계적 선택법을 쓰라고 실행하면 알아서 최적의 변수 조합을 찾아줄 듯.

  • 마치 의사결정나무와도 비슷한 효과를 보여주지 않을가 싶음