2020. 9. 21. 05:08ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 43차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 43회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
03. Ch 02. Principal Component Analysis (PCA) - 02. PCA 이해를 위한 수학적 개념
-
04. Ch 02. Principal Component Analysis (PCA) - 03. 주성분의 개수 설정
-
03. Ch 02. Principal Component Analysis (PCA) - 02. PCA 이해를 위한 수학적 개념
-
주성분 분석이 어떻게 계산되는 지 수학적인 내용을 설명
-
내가 가진 데이터에서 가장 중요한 성분을 순서대로 추출
-
내 데이터의 분산을 가장 잘 설명해주는 축이 PC1
-
PC1에 직교하는 축이 PC2
-
PCA 프로세스
-
공분산 행렬 계산
-
공분산 행렬의 eigenvalue와 eivenvector 계산
-
eigenvalue의 크기 순ㅓ대로 eigenvector 나열
-
정렬된 eigenvector 중 일부를 선택하여 차원 축소
-
공분산 행렬
-
데이터 간 퍼져있는 정도를 나타내는 행렬
-
PCA는 분산을 최대화하는 축을 찾는 작업
-
데이터의 분산에 대한 정보 -> 공분산 행렬
-
Eigenvalue와 Eigenvector 고유값과 고유벡터
-
공분산 행렬에서 나타나는 고유한 벡터와 벡터의 고유값을 의미
-
고유한 벡터: 분산의 방향, 주성분
-
벡터의 고유값: 분산의 크기, 주성분의 분산
-
즉, eigenvector는 주성분. eigenvalue는 분산의 크기
-
수학적 적의
-
04. Ch 02. Principal Component Analysis (PCA) - 03. 주성분의 개수 설정
-
복습
-
공분산 행렬 계산
-
공분산 행렬의 eigenvalue와 eigenvector계산
-
eigenvalue의 크기 순서대로 eigenvector 나열
-
정렬된 eigenvector중 필요한만큼 일부 선택하여 차원 축소
-
주성분의 개수 설정 - 3가지 방법 존재
-
시각화를 위해 2~3개로 설정
-
대략적으로 어떤 데이터인지 보고 싶을 때...
-
eigenvalue >1을 기준으로 주성분 개수 설정
-
eigenvalue: 주성분의 분산
-
내가 측정한 변수보다 분산이 작다면 설명력이 떨어짐
-
따라서 1보다 큰 값을 사용
-
1이 기준인 이유: 변수를 표준화하면, 변수의 평균은 0, 분산은 1이기때문임
-
주성분 개수가 늘어나도 더이상 분산이 추가되지 않는 지점에서 주성분 개수 설정
-
scree plot에서 elbow point로 주성분 개수 설정
-
해석하는 수고를할만한 주성분까지만 남겨줌
-
이 꺾이는 부분을 'elbow point'라고 함
-
-
PCA에 대한 참고자료
https://blog.naver.com/je1206/220818602286
http://blog.naver.com/sw4r/221031465518