[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 16차 미션

2020. 8. 25. 00:12카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 16차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 16회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 05. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 04

  2. 06. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 05

 

  1. 05. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 04

    1. 소표본(N=3)을 가지고 R실습

      1. read.csv를 이용하여 데이터를 가져옴

      2. groupA <- rawN3[rawN3$group=='A'. 1:2]

        1. rawN3의 A라는 group 데이터만 1~2열까지 가져오겠다.

      3. mean(groupA[,2]

        1. 2번째 열에 대한 평균

        2. groupB(181) > groupA(170)

  2. 06. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 05

    1. 소표본 (<30) 이상의 데이터를 다룰 때는, 다음 2가지를 확인한 후에 T-test실시

        1. 데이터 정규성 검정 (데이터가 정규분포를 따르는 지)

          1. 정규분포를 따라야만 t 테스트가 가능

            1. shapiro테스트와 qqplot으로 검정

        2. 두 그룹의 분산이 동일한 지 검정

          1. 분산이 같을 때와 다를 때 사용방법이 다름 (결과적으로는 사용하는 함수의 인자만 TRUE/FALSE로...)

    2. 가설을 설정했으니, 이제 데이터 정규성 검정을 해보자!

      1. 보통 2가지 방법을 사용

        1. shapiro 테스트와 qqplot

          1. 먼저 그룹 A에 대해 정규성 검정

            1. shapiro테스트를 해보면 p값이 1 > 0.05 이므로 따를 수 있다! (귀무가설이 정규분포를 따른다!)

            2. qqplot 테스트

              1. 이름 그대로 plot을 통해 정규성 검정

                1. 점들이 직선에 가까울 수록 정규분포를 따른다는 의미.

                2. 아래 그래프를 보면 양끝점은 좀 떨어져 있지만, 이 정도면 잘 따르는 편.

          2. 이번엔 그룹B

              1. 2가지 결과 모두 괜찮음 -> 정규성 검정 통과

    3. 이번엔 분산 동질성 검정

      1. 두 집단의 분산이 같은 지 다른 지 체크

        1. p값이 0.05보다 크면 분산이 같다는 것

    4. 다 통과했으면 t테스트 실시

        1. t.test를 사용

          1. A < B라는 가설이므로, less 를 인자로 사용

          2. 분산이 동일하기때문에 TRUE를 사용

          3. 결과적으로 p =0.1154 > 0.05 

          4. A, B그룹간의 평균 키 차이는 없다. (170과 181인데도!)

            1. 분산을 고려했을 때, 설령 두 그룹 간의 평균 차이가 이 정도 났어도 실제 평균이 같다고 볼 수 있는 범위라는 의미!

            2. 상태) 매출이나 사이트 방문자수가 늘었을 때도 이와 같은 분석이 필요

              1. 평균은 올랐지만 실제로는 그냥 비슷한 수준이라고 볼 수도 있는 셈!

              2. 상태) 이상치도 제거하고 봐야 함

                1. 평균 체류시간은 0.001초짜리도 고려된 값이므로, 이를 제거하고 분석해보자!

        1. 샘플사이즈 10인 데이터로도 테스트

          1. 이건 정규성 검정은 통과

          2. 분산은 서로 다름.

          3. 그래서 인자가 FALSE

          4. 결과적으로 p = 0.019 < 0.05 

            1. 즉, 대립가설 채택!

      1. 상태)

        1. 데이터 3개짜리의 경우, 분산이 같다고 했지만, 미묘하게는 다를 수 있으므로 FALSE로 하면 어떻게 될까?

          1. 결과 비교해보자

 

아주 의미있는 강의였음

실제로 활용해볼 수 있는 내용이 있었던 강의

이 내용을 바탕으로 실제 업무에도 활용해볼 수 있을 듯!