[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 42차 미션
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 42차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 42회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
01. Ch 01. 비지도학습 개요 - 01. 비지도학습(Unsupervised Learning)의 개념 이해
-
02. Ch 02. Principal Component Analysis (PCA) - 01. PCA의 개념 이해
-
01. Ch 01. 비지도학습 개요 - 01. 비지도학습(Unsupervised Learning)의 개념 이해
-
비지도 학습을 설명하기 전에 머신 러닝의 종류를 다뤄보자.
-
머신러닝 - 컴퓨터가 데이터를 학습해서 분류/예측 등의 모델을 만들게 하는 통계 알고리즘
-
지도학습 - 정답이 있는 데이터로 학습 supervised learning
-
비지도 학습 - 정답이 없는 데이터로 학습 unsupervised learning
-
이상치 탐지 anomaly detection
-
평소의 패턴과 다른 것을 자아내는 데 사용
-
예) 분실카드 특이사용 패턴
-
이상치 탐지를 통한 리스크 관리 - 버그성 게임 플레이 탐지 & 빠른 조치
-
사람보다 빠른 모니터링 시스템 구축
-
time-series modeling
-
과거의 상태를 기반으로 미래의 state를 예측
-
날씨 예측과 같이...
-
지도학습
-
state의 label이 있는 경우
-
비지도학습
-
state를 추촌해서 예측하는 경우
-
예) 음성인식, 추가예측
-
차원축소 dimension reduction
-
불필요한 정보를 제거, 데이터를 축소하기 위해 사용
-
예) 사진 화질 축소
-
지도학습의 전처리 과정으로 사용 (성능향상을 위해)
-
고객 데이터 군집화 - 상품판매 전략 수립
-
상품추천 알고리즘 개발
-
사람의 사진인지 파악하는데, 1000가지 정보를 사용하고 있다 할 때, 이 중 꼭 필요한 정보만 추려내는 방법
-
latent variable models
-
latent: 숨은, 잠재의 데이터를 잘 설명해주는 latent variable (숨은 변수)를 찾는데 사용
-
dimension reduction과 밀접한 개념
-
데이터를 잘 설명 못하는 변수를 제거하면 dimension reduction이 되기때문
-
02. Ch 02. Principal Component Analysis (PCA) - 01. PCA의 개념 이해
-
차원축소의 일종인 PCA (주성분 분석)
-
대표적인 차원축소방법
-
Principal Component Analysis
-
내가 가진 데이터에서 가장 중요한 성분을 순서대로 추출하는 기법
-
2차원 -> 2개의 주성분
-
10차원 -> 10개의 주성분
-
내 데이터의 분산을 가장 잘 설명해주는 축이 주성분1 (PC1)
-
PC1에 직교하는 (직각의) 축이 주성분2(PC2)
-
주어진 데이터들의 분산이 제일 작아지는 대각선 축을 찾고 PC1
-
이에 대한 직교축 PC2를 찾는다.
-
PCA는 언제 사용하는가?
-
내 데이터에 쓸데없는 정보가 너무 많을 때 (노이즈)
-
내 데이터에 잠재하는 변수 (latent variable)을 확인하고자 할 때
-
분석 전 의미 없는 변수를 가려내고자 할 때
-
각 변수들의 가중치를 확인 후 판단
-
쭉 나열한 후 주관적으로 판단하는 경우가 많음
-
예시 - 이미지 데이터에서 사용하는 PCA
-
90000픽셀의 그림파일 (300x300)
-
그림 속에 공이 몇개 있는 지 확인
-
공이 있느냐, 없느냐를 찾는 문제이므로 2차원 문제
-
2개의 주성분으로 차원 축소
-
예시 - 고양이 사진 주성분 분석
-
200만개의 데이터로 이루어진 사진
-
주성분 50~100개만 되도 대략 알아볼 수 있음
-
예시 - 사회과학 데이터
-
영화관 만족도 5문항 설문조사
-
전체 만족도는 몇 점?
-
전체 만족도는 latent variable임
-
따라서 5개의 데이터를 1개의 주성분으로 차원 축소
-
단순히 더하는 게 아니라 PCA를 활용
이상치 탐지나 설문조사 분석
해석 결과 분석 시, 어떤 데이터를 찾아볼 것인가 등에 유용해 보이는 내용.
상태)
이상치 탐지
-
접촉 결과인지 노이즈인지 체크?
설문 데이터를 분석할 때도 PCA를 사용하면 좀 더 좋으 ㄴ결과가 나오려나?