[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 29차 미션
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 29차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 29회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
04. Ch 01. 지도학습 개요 - 04. 지도학습에 필요한 개념 - 오버피팅
-
05. Ch 01. 지도학습 개요 - 05. 지도학습에 필요한 개념 - 교차검증
-
04. Ch 01. 지도학습 개요 - 04. 지도학습에 필요한 개념 - 오버피팅
-
오버피팅의 개념
-
위의 경우는 오차가 좀 있음
-
아래의 경우는 각 데이터셋에 정확히 마증ㅁ
-
하지만 문제는 아래의 경우는 데이터셋에 대해서만 맞음.
-
하지만, 우리는 특정데이터에만 잘 맞는게 아니라, 전반적으로 잘 맞는 피팅을 해야 함!
-
아래와 같이... 새로운 데이터가 있을 경우
-
위의 피팅은 오차가 적지만, 아래의 피팅은 오히려 오차가 더 커짐
-
오버피팅 = 과적합
-
언더피팅
-
적합이 덜 된 것
-
언더피팅보다는 오버피팅이 더 조심해야하는 케이스
-
05. Ch 01. 지도학습 개요 - 05. 지도학습에 필요한 개념 - 교차검증
-
오버피팅을 막기 위한 방법 -> 교차검증 (cross validation)
-
우리에게 데이터셋이 있을 때, 이 모두를 피팅에 사용하면 평가를 할 수 없음.
-
하지만, 모형을 만들 때 사용한 데이터는 평가에 사용하면 안됨
-
따라서, 전체 데이터를 학습용 데이터와 평가용 데이터로 나누어 사용.
-
그런데, 이것도 문제가 있음....
-
이것만 가지고는 부족.. 좀 더 검증..
-
학습 데이터 - 검증 데이터 - 테스트 데이터로 나누어 사용.
-
먼저 학습을 시키고
-
검증용 데이터로 파라미터를 결정하고
-
최종적으로 Test
-
k-fold cross validation을 이야기하는데, 뭔 소리인지 모르겠네. ^^
-
여하튼 이 때 데이터 내의 분포를 잘 유지하면서 나눠야 한다고 함
-
stratified k-fold cross validation
아직까지는 컨셉 소개.
대부분은 쉬움.
다만 k-fold cross validation 이야기가 이해가 좀 안감
데이터가 있을 때, 이를 나누어서, 학습시키고 검증을 한다는데..
5개로 데이터셋을 나눈 후,
1~4로 학습 5로 검증
1, 2, 3, 5로 학습하고 4로 검증
... 이를 5번 수행
이렇게 한다고 하는데.. 이건 실전에서 써봐야 이해가 갈 듯.