STWorld의 잡학사전

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 16차 미션

2020. 8. 25. 00:12ㆍ카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 16차 미션

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 16회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

05. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 04
06. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 05

05. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 04

소표본(N=3)을 가지고 R실습

read.csv를 이용하여 데이터를 가져옴
groupA <- rawN3[rawN3$group=='A'. 1:2]

rawN3의 A라는 group 데이터만 1~2열까지 가져오겠다.

mean(groupA[,2]

2번째 열에 대한 평균
groupB(181) > groupA(170)

06. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 05

소표본 (<30) 이상의 데이터를 다룰 때는, 다음 2가지를 확인한 후에 T-test실시

데이터 정규성 검정 (데이터가 정규분포를 따르는 지)

정규분포를 따라야만 t 테스트가 가능

shapiro테스트와 qqplot으로 검정

두 그룹의 분산이 동일한 지 검정

분산이 같을 때와 다를 때 사용방법이 다름 (결과적으로는 사용하는 함수의 인자만 TRUE/FALSE로...)

가설을 설정했으니, 이제 데이터 정규성 검정을 해보자!

보통 2가지 방법을 사용

shapiro 테스트와 qqplot

먼저 그룹 A에 대해 정규성 검정

shapiro테스트를 해보면 p값이 1 > 0.05 이므로 따를 수 있다! (귀무가설이 정규분포를 따른다!)
qqplot 테스트

이름 그대로 plot을 통해 정규성 검정

점들이 직선에 가까울 수록 정규분포를 따른다는 의미.
아래 그래프를 보면 양끝점은 좀 떨어져 있지만, 이 정도면 잘 따르는 편.

이번엔 그룹B

2가지 결과 모두 괜찮음 -> 정규성 검정 통과

이번엔 분산 동질성 검정

두 집단의 분산이 같은 지 다른 지 체크

p값이 0.05보다 크면 분산이 같다는 것

다 통과했으면 t테스트 실시

t.test를 사용

A < B라는 가설이므로, less 를 인자로 사용
분산이 동일하기때문에 TRUE를 사용
결과적으로 p =0.1154 > 0.05
A, B그룹간의 평균 키 차이는 없다. (170과 181인데도!)

분산을 고려했을 때, 설령 두 그룹 간의 평균 차이가 이 정도 났어도 실제 평균이 같다고 볼 수 있는 범위라는 의미!
상태) 매출이나 사이트 방문자수가 늘었을 때도 이와 같은 분석이 필요

평균은 올랐지만 실제로는 그냥 비슷한 수준이라고 볼 수도 있는 셈!
상태) 이상치도 제거하고 봐야 함

평균 체류시간은 0.001초짜리도 고려된 값이므로, 이를 제거하고 분석해보자!

샘플사이즈 10인 데이터로도 테스트

이건 정규성 검정은 통과
분산은 서로 다름.
그래서 인자가 FALSE
결과적으로 p = 0.019 < 0.05

즉, 대립가설 채택!

상태)

데이터 3개짜리의 경우, 분산이 같다고 했지만, 미묘하게는 다를 수 있으므로 FALSE로 하면 어떻게 될까?

결과 비교해보자

아주 의미있는 강의였음

실제로 활용해볼 수 있는 내용이 있었던 강의

이 내용을 바탕으로 실제 업무에도 활용해볼 수 있을 듯!

저작자표시 비영리 동일조건

댓글 0

티스토리툴바