카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 43차 미션

열린세계 2020. 9. 21. 05:08

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 43차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 43회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 03. Ch 02. Principal Component Analysis (PCA) - 02. PCA 이해를 위한 수학적 개념

  2. 04. Ch 02. Principal Component Analysis (PCA) - 03. 주성분의 개수 설정

 

  1. 03. Ch 02. Principal Component Analysis (PCA) - 02. PCA 이해를 위한 수학적 개념

    1. 주성분 분석이 어떻게 계산되는 지 수학적인 내용을 설명

      1. 내가 가진 데이터에서 가장 중요한 성분을 순서대로 추출

        1. 데이터의 분산을 가장 잘 설명해주는 축이 PC1

        2. PC1에 직교하는 축이 PC2

    2. PCA 프로세스

      1. 공분산 행렬 계산

      2. 공분산 행렬의 eigenvalue와 eivenvector 계산

      3. eigenvalue의 크기 순ㅓ대로 eigenvector 나열

      4. 정렬된 eigenvector 중 일부를 선택하여 차원 축소

    3. 공분산 행렬

      1. 데이터 간 퍼져있는 정도를 나타내는 행렬

      2. PCA는 분산을 최대화하는 축을 찾는 작업

        1. 데이터의 분산에 대한 정보 -> 공분산 행렬

    4. Eigenvalue와 Eigenvector 고유값과 고유벡터

      1. 공분산 행렬에서 나타나는 고유한 벡터와 벡터의 고유값을 의미

      2. 고유한 벡터: 분산의 방향, 주성분

      3. 벡터의 고유값: 분산의 크기, 주성분의 분산

      4. 즉, eigenvector는 주성분. eigenvalue는 분산의 크기

      5. 수학적 적의

  2. 04. Ch 02. Principal Component Analysis (PCA) - 03. 주성분의 개수 설정

    1. 복습

      1. 공분산 행렬 계산

      2. 공분산 행렬의 eigenvalue와 eigenvector계산

      3. eigenvalue의 크기 순서대로 eigenvector 나열

      4. 정렬된 eigenvector중 필요한만큼 일부 선택하여 차원 축소

    2. 주성분의 개수 설정 - 3가지 방법 존재

      1. 시각화를 위해 2~3개로 설정

        1. 대략적으로 어떤 데이터인지 보고 싶을 때...

      2. eigenvalue >1을 기준으로 주성분 개수 설정

        1. eigenvalue: 주성분의 분산

        2. 내가 측정한 변수보다 분산이 작다면 설명력이 떨어짐

        3. 따라서 1보다 큰 값을 사용

          1. 1이 기준인 이유: 변수를 표준화하면, 변수의 평균은 0, 분산은 1이기때문임

      3. 주성분 개수가 늘어나도 더이상 분산이 추가되지 않는 지점에서 주성분 개수 설정

        1. scree plot에서 elbow point로 주성분 개수 설정

          1. 해석하는 수고를할만한 주성분까지만 남겨줌

          2. 이 꺾이는 부분을 'elbow point'라고 함

          3.  

      4.  

 

PCA에 대한 참고자료

https://blog.naver.com/je1206/220818602286

http://blog.naver.com/sw4r/221031465518