2020. 8. 25. 00:12ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 16차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 16회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
05. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 04
-
06. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 05
-
05. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 04
-
소표본(N=3)을 가지고 R실습
-
read.csv를 이용하여 데이터를 가져옴
-
groupA <- rawN3[rawN3$group=='A'. 1:2]
-
rawN3의 A라는 group 데이터만 1~2열까지 가져오겠다.
-
mean(groupA[,2]
-
2번째 열에 대한 평균
-
groupB(181) > groupA(170)
-
06. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 05
-
소표본 (<30) 이상의 데이터를 다룰 때는, 다음 2가지를 확인한 후에 T-test실시
-
데이터 정규성 검정 (데이터가 정규분포를 따르는 지)
-
정규분포를 따라야만 t 테스트가 가능
-
shapiro테스트와 qqplot으로 검정
-
두 그룹의 분산이 동일한 지 검정
-
분산이 같을 때와 다를 때 사용방법이 다름 (결과적으로는 사용하는 함수의 인자만 TRUE/FALSE로...)
-
가설을 설정했으니, 이제 데이터 정규성 검정을 해보자!
-
보통 2가지 방법을 사용
-
shapiro 테스트와 qqplot
-
먼저 그룹 A에 대해 정규성 검정
-
shapiro테스트를 해보면 p값이 1 > 0.05 이므로 따를 수 있다! (귀무가설이 정규분포를 따른다!)
-
qqplot 테스트
-
이름 그대로 plot을 통해 정규성 검정
-
점들이 직선에 가까울 수록 정규분포를 따른다는 의미.
-
아래 그래프를 보면 양끝점은 좀 떨어져 있지만, 이 정도면 잘 따르는 편.
-
이번엔 그룹B
-
2가지 결과 모두 괜찮음 -> 정규성 검정 통과
-
이번엔 분산 동질성 검정
-
두 집단의 분산이 같은 지 다른 지 체크
-
p값이 0.05보다 크면 분산이 같다는 것
-
다 통과했으면 t테스트 실시
-
t.test를 사용
-
A < B라는 가설이므로, less 를 인자로 사용
-
분산이 동일하기때문에 TRUE를 사용
-
결과적으로 p =0.1154 > 0.05
-
A, B그룹간의 평균 키 차이는 없다. (170과 181인데도!)
-
분산을 고려했을 때, 설령 두 그룹 간의 평균 차이가 이 정도 났어도 실제 평균이 같다고 볼 수 있는 범위라는 의미!
-
상태) 매출이나 사이트 방문자수가 늘었을 때도 이와 같은 분석이 필요
-
평균은 올랐지만 실제로는 그냥 비슷한 수준이라고 볼 수도 있는 셈!
-
상태) 이상치도 제거하고 봐야 함
-
평균 체류시간은 0.001초짜리도 고려된 값이므로, 이를 제거하고 분석해보자!
-
샘플사이즈 10인 데이터로도 테스트
-
이건 정규성 검정은 통과
-
분산은 서로 다름.
-
그래서 인자가 FALSE
-
결과적으로 p = 0.019 < 0.05
-
즉, 대립가설 채택!
-
상태)
-
데이터 3개짜리의 경우, 분산이 같다고 했지만, 미묘하게는 다를 수 있으므로 FALSE로 하면 어떻게 될까?
-
결과 비교해보자
아주 의미있는 강의였음
실제로 활용해볼 수 있는 내용이 있었던 강의
이 내용을 바탕으로 실제 업무에도 활용해볼 수 있을 듯!