[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 28차 미션

2020. 9. 6. 19:15카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 28차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 28회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 02. Ch 01. 지도학습 개요 - 02. 지도학습에 필요한 개념 - 데이터 전처리

  2. 03. Ch 01. 지도학습 개요 - 03. 지도학습에 필요한 개념 - 모형평가

 

 

  1. 02. Ch 01. 지도학습 개요 - 02. 지도학습에 필요한 개념 - 데이터 전처리

    1. 지도학습에 필요한 개념

      1. 데이터 전처리

      2. 모형 평가

      3. 오버피팅 - overfitting

      4. 교차검증 - cross-validation

    2. 단위가 다르면 비교하기 힘들다.

      1. 175cm, 70Kg

        1. 1.75m일 수도, 1750mm일 수도?

      2. 표준화나 Min/Max 스케일을 사용

    3. 표준화 (평균 0, 표준편차 1)

    4. Min/Max 스케일이라는 방법도 많이 사용됨

      1. 표준편차를 이용하면 음수가 나오지만 Min/Max 스케일을 사용하면 음수가 존재하지 않음

  2. 03. Ch 01. 지도학습 개요 - 03. 지도학습에 필요한 개념 - 모형평가

    1. 머신러닝 모형을 만들었을 때, 이 모형이 좋은지 여부를 어떻게 평가할 수 있을가?

      1. 환자의 병이 양성인지, 음성인지 예측하는 상황

    2. 모형평가는 변수의 형식에 따라 방법이 달라짐

      1. 범주형 종속변수 (꽃, 양성/음성, ...)

        1. ROC 커브

      2. 연속형 종속변수 (키, 몸무게, ...)

        1. MSE

    3. 정답과 오답으로 분류

        1. 양성을 정답으로 맞췄는지, 음성을 정답으로 맞췄는지

        2. 양성을 틀렸는 지, 음성을 틀렸는 지

    4. 이 4가지 속성 TP, FP, FN, TN을 하나의 숫자로 표현해서 평가를 할 수는 있을가?

      1. 정확도 (accuracy): 전체 중 맞춘 비율

      2. 에러율 (error rate): 전체 중 틀린 비율

      3. 민감도 (sensitivity, Recall): 실제 양성 중에서 양성으로 판정된 비율

      4. 정밀도 (Precision): 양성이라고 예측한 것 중에서 실제 양성을 맞춘 비율

      5. False Positive Rate: 실제 음성 중에서 양성이라고 잘못 예측(음성인데, 양성이라고 틀리게)한 비율

      6. 분야마다 민감도와 정밀도를 중시하는 곳이 다름

    5. 예제

      1.  

      2. 이건 직접 손으로 계산해 보는 것을 추천

        1. 개념이 훨씬 머리에 잘 들어옴

    6. ROC 커브 (수신자 조작 특성)

      1. x축이 False Positive Rate, y축이 민감도

        1. 왼쪽으로 볼록하면 좋은 모형

        2. 우측하단으로 볼록하면 나쁜 모형

        3. 음성인데, 양성으로 판정한 비율 대비, 양성인데 양성으로 판정한 비율

          1. 즉, 음성인데, 양성으로 판정한 게 적은게 좋음 (분모가 작아짐)

          2. 양성인데, 양성으로 판정한 게 좋음 (분자가 커짐)

          3. 사실 위의 '커브'가 어떻게 그려지는 지는 아직 잘 모르겠음 (나중에 모델에 대해서는 커브를 그릴 수 있는 듯)

            1. 위의 예시 기준으로 보면(0.167, 0.625)이고, 이는 좌측 상단에 위치하니, 좋은 결과라고 추정함. ^^ (상태)

    7. MSE (평균제곱오차)

 

 

 평가개념..

어렵진 않은데, 기억에는 잘 남지 않음 (이런 게 있었다...)까지만 기억됨. .^^