[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 29차 미션

2020. 9. 7. 00:22카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 29차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 29회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 04. Ch 01. 지도학습 개요 - 04. 지도학습에 필요한 개념 - 오버피팅

  2. 05. Ch 01. 지도학습 개요 - 05. 지도학습에 필요한 개념 - 교차검증

 

  1. 04. Ch 01. 지도학습 개요 - 04. 지도학습에 필요한 개념 - 오버피팅

    1. 오버피팅의 개념

      1. 위의 경우는 오차가 좀 있음

      2. 아래의 경우는 각 데이터셋에 정확히 마증ㅁ

      3. 하지만 문제는 아래의 경우는 데이터셋에 대해서만 맞음.

      4. 하지만, 우리는 특정데이터에만 잘 맞는게 아니라, 전반적으로 잘 맞는 피팅을 해야 함!

      5. 아래와 같이... 새로운 데이터가 있을 경우

        1. 위의 피팅은 오차가 적지만, 아래의 피팅은 오히려 오차가 더 커짐

          1. 오버피팅 = 과적합

      6. 언더피팅

        1. 적합이 덜 된 것

        2. 언더피팅보다는 오버피팅이 더 조심해야하는 케이스

  2. 05. Ch 01. 지도학습 개요 - 05. 지도학습에 필요한 개념 - 교차검증

    1. 오버피팅을 막기 위한 방법 -> 교차검증 (cross validation)

      1. 우리에게 데이터셋이 있을 때, 이 모두를 피팅에 사용하면 평가를 할 수 없음.

      2. 하지만, 모형을 만들 때 사용한 데이터는 평가에 사용하면 안됨

    2. 따라서, 전체 데이터를 학습용 데이터와 평가용 데이터로 나누어 사용.

    3. 그런데, 이것도 문제가 있음....

      1. 이것만 가지고는 부족.. 좀 더 검증.. 

      2. 학습 데이터 - 검증 데이터 - 테스트 데이터로 나누어 사용.

          1. 먼저 학습을 시키고

          2. 검증용 데이터로  파라미터를 결정하고

          3. 최종적으로 Test

      3. k-fold cross validation을 이야기하는데, 뭔 소리인지 모르겠네. ^^

      4. 여하튼 이 때 데이터 내의 분포를 잘 유지하면서 나눠야 한다고 함

      5. stratified k-fold cross validation

아직까지는 컨셉 소개.

대부분은 쉬움.

다만 k-fold cross validation 이야기가 이해가 좀 안감

데이터가 있을 때, 이를 나누어서, 학습시키고 검증을 한다는데..

5개로 데이터셋을 나눈 후,

1~4로 학습 5로 검증

1, 2, 3, 5로 학습하고 4로 검증

... 이를 5번 수행

 

이렇게 한다고 하는데.. 이건 실전에서 써봐야 이해가 갈 듯.