[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 44차 미션

2020. 9. 22. 00:04카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 44차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 44회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 05. Ch 02. Principal Component Analysis (PCA) - 04. PCA 예제 실습 1-1

  2. 06. Ch 02. Principal Component Analysis (PCA) - 05. PCA 예제 실습 1-2

 

  1. 05. Ch 02. Principal Component Analysis (PCA) - 04. PCA 예제 실습 1-1

    1. 데이터 실습.

    2. iris데이터를 가지고 확인

      1. 꽃의 특징을 가지고, species를 분류하는 문제

    3. 우선 결측치 확인

        1. is.na()를 사용

      1. 변수변 기술통계 및 분포 확인

        1. summary() 이용

          1. 특히 우선은 mean과 median을 먼저 확인

            1. 두 값의차이가 크다는 것은 outlier가 많다는 의미

        2. boxplot도 활용

  2. 06. Ch 02. Principal Component Analysis (PCA) - 05. PCA 예제 실습 1-2

    1. 이제 iris를 가지고 pca를 만들어보자.

    2. 한줄이면 끝!

    3. prcomp()라는 함수...

      1. iris.pca <- prcomp(iris[1:4], center = T, scale. = T)

      2. summary(iris.pca)

        1. pca의 요약정보.

          1. standard deviation의 제곱 = 분산 = eigenvalue

          2. proportion of variance 각각이 전체 분산에서 차지하는 비중.

          3. cumulative proportion 누적값

            1. 위 그림에서 pc1이 0.7296의 비중, pc2가 0.2285

              1. 누적값은 0.7296, 그리고 pc1, pc2를 더한 0.9581, ...

      3. pca$rotation = eigenvector

          1. 각 성분의 가중치를 확인?

            1. 각각이 PC1의 eigenvector, PC2의 eigenvector를 확인할 수 있는 것

            2. 예를 들어 rotation에서

              1. PC1의 경우

                1. 0.52, -0.26, 0.58, 0.56 임.

                2. 각각은 각 주성분의 성분들의 가중치..

                3. 각 주성분에 대해 어떤 성분이 중요한 지 알 수 있다 함 (음?)

      4. pca$x

        1. 각 축에서 데이터들이 갖는 값? (=주성분의 값?)

      5. center, scale은 주성분 분석을 하기 전의 데이터들의 평균과 표준편차임

    4. 이제 값들을 확인했으니 scree plot을 확인

      1. 주성분 개수를 정하기 위해서

      2. plot()함수를 사용.

        1. line으로 그리는 옵션 'l'.

      3. 주성분 개수를 구하는 3가지 방법 존재

          1. 3번 기준(elbow point)로는 3번인데,  eigenvalue값도 같이 확인하면 2번을 선택

      4. 이제 차원 축소를 해보자

        1. pca$x중, 원하는 개수만큼만 잘라주면 됨

      5. 2차원 시각화

        1. ggfortify를 추천

    5. 결과

        1. 다음과 같은 사항을 알 수 있음

          1. 빨간 애들은 확인히 구분됨

          2. 녹색과 파란색은 섞여 있어서 약간은 구분이 애매하다.

 

 

코드는 단순한데, 설명은 좀 이해가 안감 -_-;

원래의 내용이 복잡해서 그런건지, 강사가 설명을 못하는 건지...