2020. 9. 6. 19:15ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 28차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 28회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
02. Ch 01. 지도학습 개요 - 02. 지도학습에 필요한 개념 - 데이터 전처리
-
03. Ch 01. 지도학습 개요 - 03. 지도학습에 필요한 개념 - 모형평가
-
02. Ch 01. 지도학습 개요 - 02. 지도학습에 필요한 개념 - 데이터 전처리
-
지도학습에 필요한 개념
-
데이터 전처리
-
모형 평가
-
오버피팅 - overfitting
-
교차검증 - cross-validation
-
단위가 다르면 비교하기 힘들다.
-
175cm, 70Kg
-
1.75m일 수도, 1750mm일 수도?
-
표준화나 Min/Max 스케일을 사용
-
표준화 (평균 0, 표준편차 1)
-
Min/Max 스케일이라는 방법도 많이 사용됨
-
표준편차를 이용하면 음수가 나오지만 Min/Max 스케일을 사용하면 음수가 존재하지 않음
-
03. Ch 01. 지도학습 개요 - 03. 지도학습에 필요한 개념 - 모형평가
-
머신러닝 모형을 만들었을 때, 이 모형이 좋은지 여부를 어떻게 평가할 수 있을가?
-
환자의 병이 양성인지, 음성인지 예측하는 상황
-
모형평가는 변수의 형식에 따라 방법이 달라짐
-
범주형 종속변수 (꽃, 양성/음성, ...)
-
ROC 커브
-
연속형 종속변수 (키, 몸무게, ...)
-
MSE
-
정답과 오답으로 분류
-
양성을 정답으로 맞췄는지, 음성을 정답으로 맞췄는지
-
양성을 틀렸는 지, 음성을 틀렸는 지
-
이 4가지 속성 TP, FP, FN, TN을 하나의 숫자로 표현해서 평가를 할 수는 있을가?
-
정확도 (accuracy): 전체 중 맞춘 비율
-
에러율 (error rate): 전체 중 틀린 비율
-
민감도 (sensitivity, Recall): 실제 양성 중에서 양성으로 판정된 비율
-
정밀도 (Precision): 양성이라고 예측한 것 중에서 실제 양성을 맞춘 비율
-
False Positive Rate: 실제 음성 중에서 양성이라고 잘못 예측(음성인데, 양성이라고 틀리게)한 비율
-
분야마다 민감도와 정밀도를 중시하는 곳이 다름
-
예제
-
이건 직접 손으로 계산해 보는 것을 추천
-
개념이 훨씬 머리에 잘 들어옴
-
ROC 커브 (수신자 조작 특성)
-
x축이 False Positive Rate, y축이 민감도
-
왼쪽으로 볼록하면 좋은 모형
-
우측하단으로 볼록하면 나쁜 모형
-
음성인데, 양성으로 판정한 비율 대비, 양성인데 양성으로 판정한 비율
-
즉, 음성인데, 양성으로 판정한 게 적은게 좋음 (분모가 작아짐)
-
양성인데, 양성으로 판정한 게 좋음 (분자가 커짐)
-
사실 위의 '커브'가 어떻게 그려지는 지는 아직 잘 모르겠음 (나중에 모델에 대해서는 커브를 그릴 수 있는 듯)
-
위의 예시 기준으로 보면(0.167, 0.625)이고, 이는 좌측 상단에 위치하니, 좋은 결과라고 추정함. ^^ (상태)
-
MSE (평균제곱오차)
평가개념..
어렵진 않은데, 기억에는 잘 남지 않음 (이런 게 있었다...)까지만 기억됨. .^^