[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 44차 미션
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 44차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 44회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
05. Ch 02. Principal Component Analysis (PCA) - 04. PCA 예제 실습 1-1
-
06. Ch 02. Principal Component Analysis (PCA) - 05. PCA 예제 실습 1-2
-
05. Ch 02. Principal Component Analysis (PCA) - 04. PCA 예제 실습 1-1
-
데이터 실습.
-
iris데이터를 가지고 확인
-
꽃의 특징을 가지고, species를 분류하는 문제
-
우선 결측치 확인
-
is.na()를 사용
-
변수변 기술통계 및 분포 확인
-
summary() 이용
-
특히 우선은 mean과 median을 먼저 확인
-
두 값의차이가 크다는 것은 outlier가 많다는 의미
-
boxplot도 활용
-
06. Ch 02. Principal Component Analysis (PCA) - 05. PCA 예제 실습 1-2
-
이제 iris를 가지고 pca를 만들어보자.
-
한줄이면 끝!
-
prcomp()라는 함수...
-
iris.pca <- prcomp(iris[1:4], center = T, scale. = T)
-
summary(iris.pca)
-
pca의 요약정보.
-
standard deviation의 제곱 = 분산 = eigenvalue
-
proportion of variance 각각이 전체 분산에서 차지하는 비중.
-
cumulative proportion 누적값
-
위 그림에서 pc1이 0.7296의 비중, pc2가 0.2285
-
누적값은 0.7296, 그리고 pc1, pc2를 더한 0.9581, ...
-
pca$rotation = eigenvector
-
각 성분의 가중치를 확인?
-
각각이 PC1의 eigenvector, PC2의 eigenvector를 확인할 수 있는 것
-
예를 들어 rotation에서
-
PC1의 경우
-
0.52, -0.26, 0.58, 0.56 임.
-
각각은 각 주성분의 성분들의 가중치..
-
각 주성분에 대해 어떤 성분이 중요한 지 알 수 있다 함 (음?)
-
pca$x
-
각 축에서 데이터들이 갖는 값? (=주성분의 값?)
-
center, scale은 주성분 분석을 하기 전의 데이터들의 평균과 표준편차임
-
이제 값들을 확인했으니 scree plot을 확인
-
주성분 개수를 정하기 위해서
-
plot()함수를 사용.
-
line으로 그리는 옵션 'l'.
-
주성분 개수를 구하는 3가지 방법 존재
-
3번 기준(elbow point)로는 3번인데, eigenvalue값도 같이 확인하면 2번을 선택
-
이제 차원 축소를 해보자
-
pca$x중, 원하는 개수만큼만 잘라주면 됨
-
2차원 시각화
-
ggfortify를 추천
-
결과
-
다음과 같은 사항을 알 수 있음
-
빨간 애들은 확인히 구분됨
-
녹색과 파란색은 섞여 있어서 약간은 구분이 애매하다.
코드는 단순한데, 설명은 좀 이해가 안감 -_-;
원래의 내용이 복잡해서 그런건지, 강사가 설명을 못하는 건지...