2020. 9. 19. 05:07ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 41차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 41회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
28. Ch 06. Support Vector Machine (SVM) - 05. SVM 결과의 해석
-
29. Ch 06. Support Vector Machine (SVM) - 06. SVM 예제 실습
-
28. Ch 06. Support Vector Machine (SVM) - 05. SVM 결과의 해석
-
먼서 선형 서포트 벡터 머신의 결과를 보자
-
딱히 다른 값이 없으므로, 정확도만 확인하면 됨 97%
-
비선형 서포트 벡터 머신은 결과가 복잡함
-
정확도도 천차만별인 값이 나옴
-
degree: 다항식의 차수 (몇승이냐)
-
scale: 데이터를 늘렸다 줄였다.
-
C: cost임
-
사실 서포트 벡터 머신은 '커널'이라는 개념을 사용함
-
비선형 서포트 벡터 머신은 다음과 같은 커널을 사용함
-
caret에서는 Offset이 고정되어 있고, kernlab을 쓰면 Offset을 변경 가능
-
scale은 내적값의 크기를 변화시킴.
-
degree로 n승을 해줌
-
degree를 다시 설명하면
-
커널의 차수를 설정
-
scale은 다항식의 파라미터를 스케일링
-
C = cost
-
로지스틱에서 배운 cost와 동일
-
모델의 비용값을 고정시켜놓고 학습시키는 것
-
학습 모형의 비용을 설정
-
다시 말해서 에러값을 비용이라 하는 것
-
어느 정도의 에러를 허용할 지 정하는 것
-
경계선의 복잡성을 컨트롤하는 변수
-
29. Ch 06. Support Vector Machine (SVM) - 06. SVM 예제 실습
-
이제 실제 데이터로 실습
-
언제나처럼 와인데이터를 사용
-
데이터 가져오고, 범주화하고. ^^
-
데이터 셋도 나누어주고 7:3으로
-
먼저 선형 서포트 벡터 머신
-
이 결과를 가지고 예측해보면 94.44%
-
변수별 중요도
-
비선형 서포트 벡터 머신 사용
-
degree = 1, scale = 0.01, C=0.5일 때, 정확도가 99.21%
-
이제 예측을 해보자
-
정확도가 92%
-
변수의 중요도 확인
-
선형과 비선형의 정확도 비교
-
학습데이터만 놓고 보면 비선형이 훨씬 더 정확했음
-
그런데, 테스트 데이터에 대한 정확도는 선형이 더 정확
-
즉, 비선형은 오버피팅이 잘 나타남...
-
하지만 그렇다고 해서 꼭 비선형이 나쁘다고 볼 수는 없음
-
데이터마다 다를 수 있음~
-
지금까지 다룬 것들
-
k최근접
-
로지스틱 회귀분석
-
나이브 베이즈
-
의사결정나무 & 랜덤 포레스트
-
서포트 벡터 머신
-
결국 어느 방법이 제일 낫다고 하지 말라.
-
어느 특정방법만 선호하면 안된다.
-
편견없이 방법을 활용하라.
-
각각의 방법도 더 세부적인 모델들이 있다는 것도 기억하라.
-
caret 매뉴얼도 한번 보시면 좋고~