2020. 8. 24. 00:11ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 15차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 15회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
03. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 02
-
04. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 03
-
03. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 02
-
분산과 표준편차의 계산을 실제로 해봄..
-
실무에서 단측검정을 주로 사용하는 이유?
-
귀무가설
-
두 집단 평균 키 차이 없다.
-
대립가설
-
양측검정
-
두집단 평균 키 차이 있다.
-
단측검정
-
A그룹평균키가 B그룹 평균키보다 크다.
-
사실 실제로는 먼저 두 그룹의 데이터 평균 등을 구한 후 가설검증을 하기때문에, 이미 어느 한쪽이 더 큰 상태에서 검정을 하게 됨
-
따라서 단측 검정을 주로 하게 됨...
-
여기서는 지금 t 검정을 할 것
-
즉,
-
가설설정 -> t 검정 -> 결론
-
하지만, 실제로는 t 검정을 하기 전에 2가지 작업을 해줘야 함.
-
데이터 정규성 검정
-
분산 동질성 검정
-
데이터 정규성 검정
-
데이터가 30개를 넘는다면 정규분포를 따름
-
하지만 데이터가 30개를 미만이면 정규분포를 따르지 않을 수도 있음.
-
문제는 t검정은 정규분포를 따라야만 쓸 수 있는 방법
-
만일 정규분포를 따르지 않을 경우에는 '비모수검정'이란 방법을 사용하게 된다.
-
즉, 여기서 하나의 검정을 하게 됨
-
귀무가설 - 데이터셋이 정규분포를 따른다.
-
대립가설 - 데이터셋이 정규분포를 따르지 않는다.
-
분산 동질성 검정
-
귀무가설 - 두 집단 간 분산 차이가 없다.
-
대립가설 - 두 집단 간 분산 차이가 있다.
-
분산 차이가 있느냐/없느냐에 따라 사용하는 t 검정 방법이 달라짐
-
t값 = (그룹1 평균 - 그룹2 평균)/표준편차
-
분산이 같으냐/다르냐에 따라 t값이 달라짐.
-
분산이 같을 때
-
동일한 분산 사용 (합동 분산)
-
분산이 다를 때,
-
각 그룹의 분산을 모두 사용
-
실제 사용은 다음 강의에서~
-
04. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 03
-
분산을 구해보면
-
t = 1.63
-
이 값으로 어떤 판단을 할 수 있을까?
-
이 값을 t분포에서 사용
-
분포는 아주 다양하게 있음
-
정규분포
-
t분포
-
F분포
-
카이제곱 분포
-
지수분포
-
이 중 t분포를 사용
-
왜? 우리가 구한 t값이 t분포를 따르기때문
-
t분포와 정규 분포의 모양 자체는 비슷.
-
t분포는 n(자료개수)의 영향을 받음 -> n이 커질 수록 정규분포와 비슷
-
t = 1.63일 때의 p-value를 계산
-
p-value < 0.05이면 귀무가설 기각 (대립가설 채택)
-
p-value
-
귀무가설이 참이라고 했을 때, 표본데이터가 수집될 확률
-
0.05를 유의 수준이라고 하며, 대게 0.05, 0.01 중 채택
-
분산이 다를 경우에는 t값 계산 방법이 달라짐
-
t = 0.5
-
t값은 개별 데이터를 모르고 평균과 분산만 알면 구할 수 있음!
-
분산(표준편차)는 집단의 중요한 대표값
-
평균만으로는 충분하지 않은 데이터
-
t값이 클수록 P값이 작아짐
-
위의 예에서 분산이 같을 때는 t= 1.63 > 0.5 (분산이 다를 때)
-
아직 P값을 계산은 안했지만, 분산이 같을 때가 귀무가설이 기각될 가능성이 높음
-
상태) 분산이 크면, 평균도 영향을 받게 되고, 분산이 크다보니, 적은 표본에서는 평균이 작게 나올 확률이 올라가기때문 - 즉, 실제로는 두 그룹의 평균이 비슷한 셈인데도,분산이 큰 노란색 그룹의 평균이 작게 나왔을 가능성이 높다.