STWorld의 잡학사전

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 15차 미션

2020. 8. 24. 00:11ㆍ카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 15차 미션

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 15회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

03. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 02
04. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 03

03. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 02

분산과 표준편차의 계산을 실제로 해봄..
실무에서 단측검정을 주로 사용하는 이유?

귀무가설

두 집단 평균 키 차이 없다.

대립가설

양측검정

두집단 평균 키 차이 있다.

단측검정

A그룹평균키가 B그룹 평균키보다 크다.

사실 실제로는 먼저 두 그룹의 데이터 평균 등을 구한 후 가설검증을 하기때문에, 이미 어느 한쪽이 더 큰 상태에서 검정을 하게 됨

따라서 단측 검정을 주로 하게 됨...

여기서는 지금 t 검정을 할 것

즉,

가설설정 -> t 검정 -> 결론

하지만, 실제로는 t 검정을 하기 전에 2가지 작업을 해줘야 함.

데이터 정규성 검정
분산 동질성 검정

데이터 정규성 검정

데이터가 30개를 넘는다면 정규분포를 따름
하지만 데이터가 30개를 미만이면 정규분포를 따르지 않을 수도 있음.
문제는 t검정은 정규분포를 따라야만 쓸 수 있는 방법

만일 정규분포를 따르지 않을 경우에는 '비모수검정'이란 방법을 사용하게 된다.

즉, 여기서 하나의 검정을 하게 됨

귀무가설 - 데이터셋이 정규분포를 따른다.
대립가설 - 데이터셋이 정규분포를 따르지 않는다.

분산 동질성 검정

귀무가설 - 두 집단 간 분산 차이가 없다.
대립가설 - 두 집단 간 분산 차이가 있다.
분산 차이가 있느냐/없느냐에 따라 사용하는 t 검정 방법이 달라짐

t값 = (그룹1 평균 - 그룹2 평균)/표준편차

분산이 같으냐/다르냐에 따라 t값이 달라짐.

분산이 같을 때

동일한 분산 사용 (합동 분산)

분산이 다를 때,

각 그룹의 분산을 모두 사용

실제 사용은 다음 강의에서~

04. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 03

분산을 구해보면

t = 1.63

이 값으로 어떤 판단을 할 수 있을까?
이 값을 t분포에서 사용

분포는 아주 다양하게 있음

정규분포
t분포
F분포
카이제곱 분포
지수분포

이 중 t분포를 사용

왜? 우리가 구한 t값이 t분포를 따르기때문

t분포와 정규 분포의 모양 자체는 비슷.

t분포는 n(자료개수)의 영향을 받음 -> n이 커질 수록 정규분포와 비슷

t = 1.63일 때의 p-value를 계산

p-value < 0.05이면 귀무가설 기각 (대립가설 채택)

p-value

귀무가설이 참이라고 했을 때, 표본데이터가 수집될 확률
0.05를 유의 수준이라고 하며, 대게 0.05, 0.01 중 채택

분산이 다를 경우에는 t값 계산 방법이 달라짐

t = 0.5
t값은 개별 데이터를 모르고 평균과 분산만 알면 구할 수 있음!

분산(표준편차)는 집단의 중요한 대표값

평균만으로는 충분하지 않은 데이터

t값이 클수록 P값이 작아짐

위의 예에서 분산이 같을 때는 t= 1.63 > 0.5 (분산이 다를 때)

아직 P값을 계산은 안했지만, 분산이 같을 때가 귀무가설이 기각될 가능성이 높음
상태) 분산이 크면, 평균도 영향을 받게 되고, 분산이 크다보니, 적은 표본에서는 평균이 작게 나올 확률이 올라가기때문 - 즉, 실제로는 두 그룹의 평균이 비슷한 셈인데도,분산이 큰 노란색 그룹의 평균이 작게 나왔을 가능성이 높다.

저작자표시 비영리 동일조건

댓글 0

티스토리툴바