[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 42차 미션

2020. 9. 20. 00:08카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 42차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 42회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 01. Ch 01. 비지도학습 개요 - 01. 비지도학습(Unsupervised Learning)의 개념 이해

  2. 02. Ch 02. Principal Component Analysis (PCA) - 01. PCA의 개념 이해

 

  1. 01. Ch 01. 비지도학습 개요 - 01. 비지도학습(Unsupervised Learning)의 개념 이해

    1. 비지도 학습을 설명하기 전에 머신 러닝의 종류를 다뤄보자.

      1. 머신러닝 - 컴퓨터가 데이터를 학습해서 분류/예측 등의 모델을 만들게 하는 통계 알고리즘

      2. 지도학습 - 정답이 있는 데이터로 학습 supervised learning

      3. 비지도 학습 - 정답이 없는 데이터로 학습 unsupervised learning

    2. 이상치 탐지 anomaly detection

      1. 평소의 패턴과 다른 것을 자아내는 데 사용

        1. 예) 분실카드 특이사용 패턴

        2. 이상치 탐지를 통한 리스크 관리 - 버그성 게임 플레이 탐지 & 빠른 조치

        3. 사람보다 빠른 모니터링 시스템 구축

      2. time-series modeling

        1. 과거의 상태를 기반으로 미래의 state를 예측

          1. 날씨 예측과 같이...

        2. 지도학습

          1. state의 label이 있는 경우 

        3. 비지도학습

          1. state를 추촌해서 예측하는 경우

          2. 예) 음성인식, 추가예측

      3. 차원축소 dimension reduction

        1. 불필요한 정보를 제거, 데이터를 축소하기 위해 사용

          1. 예) 사진 화질 축소

          2. 지도학습의 전처리 과정으로 사용 (성능향상을 위해)

          3. 고객 데이터 군집화 - 상품판매 전략 수립

          4. 상품추천 알고리즘 개발

        2. 사람의 사진인지 파악하는데, 1000가지 정보를 사용하고 있다 할 때, 이 중 꼭 필요한 정보만 추려내는 방법

      4. latent variable models

        1. latent: 숨은, 잠재의 데이터를 잘 설명해주는 latent variable (숨은 변수)를 찾는데 사용

          1. dimension reduction과 밀접한 개념

          2. 데이터를 잘 설명 못하는 변수를 제거하면 dimension reduction이 되기때문

  2. 02. Ch 02. Principal Component Analysis (PCA) - 01. PCA의 개념 이해

    1. 차원축소의 일종인 PCA (주성분 분석)

      1. 대표적인 차원축소방법

    2. Principal Component Analysis

    3. 내가 가진 데이터에서 가장 중요한 성분을 순서대로 추출하는 기법

      1. 2차원 -> 2개의 주성분

      2. 10차원 -> 10개의 주성분

      3. 내 데이터의 분산을 가장 잘 설명해주는 축이 주성분1 (PC1)

      4. PC1에 직교하는 (직각의) 축이 주성분2(PC2)

    4. 주어진 데이터들의 분산이 제일 작아지는 대각선 축을 찾고 PC1

      1. 이에 대한 직교축 PC2를 찾는다.

    5. PCA는 언제 사용하는가?

      1. 내 데이터에 쓸데없는 정보가 너무 많을 때 (노이즈)

      2. 내 데이터에 잠재하는 변수 (latent variable)을 확인하고자 할 때

      3. 분석 전 의미 없는 변수를 가려내고자 할 때

        1. 각 변수들의 가중치를 확인 후 판단

          1. 쭉 나열한 후 주관적으로 판단하는 경우가 많음

    6. 예시 - 이미지 데이터에서 사용하는 PCA

      1. 90000픽셀의 그림파일 (300x300)

        1. 그림 속에 공이 몇개 있는 지 확인

      2. 공이 있느냐, 없느냐를 찾는 문제이므로 2차원 문제

        1. 2개의 주성분으로 차원 축소

    7. 예시 - 고양이 사진 주성분 분석

      1. 200만개의 데이터로 이루어진 사진

        1. 주성분 50~100개만 되도 대략 알아볼 수 있음

    8. 예시 - 사회과학 데이터

      1. 영화관 만족도 5문항 설문조사

        1. 전체 만족도는 몇 점?

          1. 전체 만족도는 latent variable임

          2. 따라서 5개의 데이터를 1개의 주성분으로 차원 축소

      2. 단순히 더하는 게 아니라 PCA를 활용

 

이상치 탐지나 설문조사 분석

해석 결과 분석 시, 어떤 데이터를 찾아볼 것인가 등에 유용해 보이는 내용.

 

상태)

이상치 탐지

  • 접촉 결과인지 노이즈인지 체크?

설문 데이터를 분석할 때도 PCA를 사용하면 좀 더 좋으 ㄴ결과가 나오려나?