카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 35차 미션

열린세계 2020. 9. 13. 00:02

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 35차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 35회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 16. Ch 04. Naive Bayes Classification - 02. R code로 구현하는 Naive Bayes Classification

  2. 17. Ch 04. Naive Bayes Classification - 03. Naive Bayes Classification 결과의 해석

 

  1. 16. Ch 04. Naive Bayes Classification - 02. R code로 구현하는 Naive Bayes Classification

    1. 여기서도 caret을 사용

      1. method만 naive_bayes를 사용

    2. 나이브 베이즈를 제공하는 패키지들

      1. caret 내에도 총 3가지가 존재

        1. naivebayes  - naive_bayes

        2. bnclassify - nbDiscrete, manb, awnb

          1. manb - Model Averaged naive Beyes

            1. 모든 가능한 피쳐조합의 조건부확률의 평균

              1. 지난 시간의 배드민턴에서 4개의 피처들 중,

                1. 일부만 쓰거나, 날씨와 바람을 조합한 경우를 하나의 조건으로 쓴다든지...

              2. 즉, 여러가지 가능성의 평균을 활용

          2. awnb

            1. 조건부 확률에 가중치를 부여

        3. klaR

      2. 여기서 강사는 naive_bayes를 추천

        1. 편리함을 중요하게 생각함

          1. 결국 입력값을 넣어서 결과를 얻어야 하는데, 

          2. 각 패키지 방식에 맞게 입력값을 맞춰서 넣어줘야 하는데, 

          3. naive_bayes가 제일 편하다.

  2. 17. Ch 04. Naive Bayes Classification - 03. Naive Bayes Classification 결과의 해석

    1.  아래와 같은 결과가 나옴

      1. usekernel

      2. adjust?

      3. laplac?

    2. 커널 밀도 추정 (Kernal Density Estimation) KDE

      1. 데이터의 히스토그램을 보고 실제 분포를 추정

        1. 이 히스토그림이 계단형을 부드럽게 해주는 과정은 smoothing이라고 부름

    3. adjust

      1. bandwidth?

          1. bandwidth를 변경하여 추정 커널밀도 함수의 높이 등이 달라짐

            1. 실제 분포에 가까운 함수를 추정

          2. adjust -> bandwidth값을 바꾼다는 의미

    4. laplas

      1. 라플라스 스무딩 (Laplace smoothing or Additive Smoothing)

        1. 스무딩의 한 방식을 말함

        2. 식은 몰라도 되고, 아래와 같이 계단형을 부드러운 곡선으로 만든다는 것만 이해하면 됨.

          1. 알파가 0이면 그냥 x/N

        3. 동전을 10번 던져서 앞면이 4번 나왔다면

          1. 4/10

            1. 이게 일반적

          2. 그런데 뒤의 알파가 들어간 식을 넣는 이유?

            1. 동전을 무수히 많이 던졌으면 모를까, 몇번 안던졌다고 하자

              1. 4번 던졌는데, 앞면이 0번 나올 수도 있음

                1. 그러면 앞면이 나올 확률은 0.

                2. 하지만 이런 극단적인 경우를 막기 위한 처리

              2. 역으로 100%도 보정

      2. 다시 정리하면 아래와 같다

        1. usekernel은 커널의 사용 여부

        2. adjust는 bandwidth을 어떻게 조절할 지

        3. laplace는 알파값을 어떻게 할 것인가?

 

 

기본적인 이론만 다루었음

다음 시간의 예제를 봐야 좀 더 이해가 갈 듯