카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 50차 미션

열린세계 2020. 9. 28. 00:15

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 50차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 50회차 미션!

  1. 01. Ch 01. 데이터 분석 approach_01_데이터분석적 사고

  2. 02. Ch 01. 데이터 분석 approach_02_데이터분석 process의 이해

 

  1. 01. Ch 01. 데이터 분석 approach_01_데이터분석적 사고

    1. 실전 데이터 분석을 하기 전에 데이터 분석에 대한 이해를 하고 시작하자.

    2. 데이터 분석적 사고

      1. 현상이나 문제를 데이터에 기반하여 이해, 해결하고자 하는 사고 방식

      2. 데이터 분석적사고 = 분석적 사고  + 데이터

        1. 데이터에 기반하여 정량적으로 분석!

    3. 데이터 분석에 대한 오해를 깨자

      1. 데이터 분석 (머신러닝)은 마법이 아님

        1. domain knowledge가 필요

          1. 데이터만 넣는다고 모델을 만들 수 있는 게 아님

      2. 데이터 분석은 데이터 분석가가 아니더라도 할 수 있음

      3. 통계학을 몰라도 할 수 있다!

        1. 물론 통계학을 알면 더 정교한 분석과 예측 모델을 만들 수 있다.

    4. 사례

      1. 월마트

        1. 출산 예측 모델 개발

          1. 목적: 출산을 예측하여 예비부모에게 미리 유아용품 프로모션을 제안하여 고객 선점

          2. 현황

            1. 이전까지는 예측이 아닌 이미 공개된 출생 기록을 사용

          3. 그런데, 출산 전 고객 패턴을 보니

            1. 식재료, 옷장 비타민 종류 등을 변경하는 경향이 있음

              1. 도메인 지식에 따른 아이디어

          4. 필요 데이터

            1. 고객의 구매 시점

            2. 상품명이 포함된 구매 데이터

        2. 데이터 분석가에 필요한 역량

          1. domain knowledge

            1. 출산 전 고객 패턴을 이해하였고, 이를 토대로 모델링

          2. 통계학적 지식

            1. 데이터넷을 구성하고 통계모델(머신러닝)을 만드는 데 필요

          3. 커뮤니케이션 능력

            1. 출생 예측 모델을 만든 후, 예측값을 기반으로 한 프로모션을 진행할 수 있도록 논리적인 설득

        3. 데이터 분석가와 비 데이터분석가의 차이

            1. 데이터 분석가는 직접 SQL등을 이용하여 데이터를 추출할 수 있음

            2. 비데이터 분석가는 감이나 과거의 경험을 많이 사용

              1. 데이터 분석가는 감, 경험을 바탕으로 데이터를 분석

            3. 마법의 도구가 아니라 의사결정을 도와주는 수단으로서 데이터 분석 결과, 머신러닝을 바라봄

  2. 02. Ch 01. 데이터 분석 approach_02_데이터분석 process의 이해

    1. 가장 중요한 내용이라고도 할 수 있음

      1. 데이터 분석의 전체 틀을 이해

    2. 데이터 분석 프로세스

      1. 문제인식

      2. 가설설정

      3. 가설을 검정할 데이터 준비, 변수 설계

      4. 분석 (가설 검정)

      5. 결과 해석

      6. 결과의 활용방안 도출

    3. 사례

        1. 문제 인식

          1. 매출을 키우기 위해 출산 고객을 빠르게 선점해야 함

          2. 출산을 예측하여 프로모션에 활용하겠다는 목적을 세움

        2. 가설 설정

          1. 출산이 임박하면 기존에 사용하던 식재료, 옷장, 비타민 종류 등을 변경할 것이다.

        3. 가설을 검정할 데이터 준비, 변수 설계

          1. 구매시점, 상품명이 포함되는 구매 데이터

          2. 물론 과거 출산 여부, 언제 출산했는 지 등의 데이터도 필요

          3. 변수 설계

            1. 시계열 데이터를 하나의 수치로 구매이ㅡ 변화를 확인할 수 있도록 설계

              1. 최근 3개월간 구매한 비타민 중 신규 구매한 비타민 비율

              2. 전체 기간의 유아용 가구 구매 횟수 대비 최근 3개월간의 유아용 가구 구매 횟수

        4. 분석 (가설 검정)

          1. 출산 확률을 예측하기 위한 머신러닝 알고리즘을 적용하여 모델링

        5. 결과 해석

          1. 예측의 정확도 평가

          2. 변수별 중요도 파악 - 모델 개선을 위한 인사이트로 활용

        6. 결과의 활용 방안 도출

          1. 출산 확률이 몇%일 때, 프로모션을 진행할 지 기준 설정

            1. 너무 높게 잡으면 (90% 이상?)

              1. 대상이 너무 적어서 효과가 적음

            2. 너무 낮게 잡으면 (50%?)

              1. 프로모션 대비 수익률의 감소

              2. 미출산 고객의 클레임 발생

    4. 영화 추천 시스템 개발 사례 - 넷플릭스

        1. 감상확률이 높은 영화를 추천

        2. 다양성을 위해 다른 군집의 영화도 간헐적으로 추천

          1. 이 중에서도 감상 확률이 상대적으로 높은 군집의 영화를 추천