[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 14차 미션

카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 14차 미션

열린세계 2020. 8. 23. 18:22

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 14회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

01. Ch 01. 가설 검정하기 - 01. 가설검정 개요
02. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 01

01. Ch 01. 가설 검정하기 - 01. 가설검정 개요

가설검정에 대한 기본적인 용어 설명이 위주

귀무가설과 대립가설

양측 검정과 단측검정

실무에선 단측 검정이 주로 사용됨

가설검증의 단계

가설을 세운다
기준을 세운다. (검정통계량을 구한다.)
결론을 내린다.

카이제곱 검정
ANOVA검정
z검정
대응표본 t 검정
t검정

02. Ch 01. 가설 검정하기 - 02. 두 집단 간 평균 비교하기 - 01

모집단과 표본

모집단: 관심대상 전체 집합 - 실제로 구하는 것은 거의 불가능
표본 집단: 모집단의 부분 집합

참고: 모수(Parameter) - 모집단을 나타내는 수

그런데 사람들이 자주 "그 표본 집단의 모수가 얼마야?"라는 표현을 함 - 틀린 표현!

그룹을 비교할 경우, 각 그룹의 대표값이 필요

예를 들어, 평균이나 분산

아직까지는 아주 일반적인 설명 위주로 진행

이전 파트1~3의 강사에 비해 아직까지는 설명이 조금 아쉬움

말도 느리고 (2배속으로 들어도 느림 ^^) 뭔가 요점을 딱 짚어내지 못하는 느낌?

뭐.. 좀 더 기다려봐야할 듯.

가설검정 부분은 다른 강의를 통해 한번 들었던 내용인데, 들어도 들어도 자꾸 까먹음.

이 강의는 복습을 한다고 생각하고 쭉 듣고, 실습을 해봐야할 듯!

그리고 분산계산 시에 왜 표본숫자에서 1을 빼는 지는 영원한 숙제인 듯.

이걸 제대로 이해하려면 결국 수학적인 부분을 짚어야 할 듯 -_-;

분산 계산 시, n-1을 하는 이유!

https://jaehoo.tistory.com/entry/%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8%EC%97%90%EC%84%9C-n-1-%EC%93%B0%EB%8A%94-%EC%9D%B4%EC%9C%A0

고등학교 때는 n으로 나눴는데, 대학부터는 n-1로 나눈다고 설명 ^^ (고등학교 때도 그랬던 것 같긴 한데...)

실마리는 Population과 sample의 차이

Population은 모집단의 수
sample은 표본의 수

population을 쓸 때는 n을, sample을 쓸 때는 n-1을 사용

분산의 핵심은 평균으로부터의 차이! (편차 제곱의 평균이니까. - (각 값- 평균)
그런데, population을 쓸 때는 정확한 평균을 구할 수 있고 결국 분산 계산도 정확
하지만 sample을 쓸 때는 정확한 평균이 아닌 '가평균'을 사용하게 됨.

일반적으로 가평균을 이용하면, 편차가 실제편차보다 작게 추정됨. 따라서 이를 조금이라도 보정하고자 n-1을 사용.

n이 충분히 크면 n ~ n-1 은 거의 비슷하므로 상관없음

또 다른 설명

수학사랑 저널 2000 년 4 월호(20호) 에 실린 양인웅(fifit@mathlove.org) 선생님의 글을 소개해 드리겠습니다.
'분산(variance)' 은 평균을 가준점으로 자료들이 얼마나 퍼져 있는지를 재는 측도입니다. 평균을 원점으로 간주했을 때 각 관측값들의 상대적인 위치를 '편차(deviation)' 라고 부르며 '관측값-평균' 으로 정의됩니다.
그런데 편차의 합은 항상 '0' 이 되기 때문에 편차의 절대값을 취하거나 제곱을 합니다. 편차에 절대값을 취한 것의 평균을 '평균절대편차(mean absolute deviation)' 라고 부르며 제곱한 것의평균을 '평균제곱편차(mean squared deviation)' 라고 부릅니다.
그런데 평균절대편차는 계산의 어려움때문에 상당히 제한적으로 사용되고 평균제곱편차도 실제 자료분석을 할 때에는 잘 사용되지 않습니다.
자료분석을 할 때 일반적으로 사용하는 분산에서는 제곱 편차의 합을 'n-1' 로 나눈 값을 사용합니다. 이것을 '불편분산(unbiased variance)' 이라고도 합니다. 그러면 왜 'n-1' 로 나눈 값을 사용하는지 궁금하죠? 그것은 바로 '자유도(degree of freedon)' 때문입니다.
분산을 계산할 때에는 반드시 평균을 먼저 계산하게 되고 평균을 알고 나면, 원래 자료 중의 한 값을 잃어도 정보는 전혀 손실되지 않습니다. 다시 말해 평균을 알고 나면 자료 중에 어느 한 값은 항상 잉여정보가 되고 따라서 자유도는 '관측수-1' 이 됩니다.
따라서 평균을 계산할 때에는 자유도가 '관측수' 이고, 분산을 계산할 때는 자유도가 '관측수-1' 이 됩니다.
그런데 관측수가 커지면 관측수를 사용하든 자유도를 사용하든 별차이가 생기지 않습니다. 다만 자유도 개념을 기초로 한 분산이 관측수를 기초로 만든 평균제곱편차보다 수리적으로 우월한 점이 있기 때문에 통계학에서는 주로 자유도를 이용한 분산을 사용하고 학교에서는 간편하게 관측수를 이용한 평균제곱편차를 분산으로 사용하고 있을 뿐입니다.//
자료출처 : http://cafe.naver.com/sejongin.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=194&

또또 다른 설명

음, 고등학교 이후 통계를 처음 접하는 비전공분들이 주로 묻는 질문이라고 생각됩니다. 이곳에 쓴적이 있었나 가물가물해서 다시 집어보면, 음, 개념적으로 일단 한번 보면, 일단 모분산과 표본분산의 차이에 대한 감이 있어야 겠지요. 모분산은 쉽게, 말그대로 모집단에 대한 분산이며 모집단의 모든값들에 대해 계산된 값이겠지요. 표본분산은 모집단의 부분집합인 표본에 대한 분산이겠고요. 그럼 이제 머리속에 정규분포 하나를 그려보시길요. 이제 거기서 10개 정도의 표본을 뽑아 봅니다. 이때 정규분포의 특징상 평균 부분에서 많이 뽑히겠지요?. 그렇다면 이렇게 가운데 부근에서 많이 뽑힌 표본분산값들과, 모집단의 각 값들을 고려한 모분산을 비교해보면 일반적으로 표본분산이 더 작겠지요. 이것은 한 문장으로 정리하면
"표본분산은 모분산보다 작아질려는 성질이 있다'라는 말로 요약을 할 수 있겠지요. 이제 좋은 표본분산에 대한 것을 한번 살펴봅니다. 좋은 기준 중 하나는 표본분산의 "기대값"이 모분산이 되느냐? 라는 것이겠지요. 그런데 앞에서도 살펴봤듯이 , N으로 나눈 표본분산은 일반적으로 모분산보다 작아지려는 경향이 있기 때문에 그 기대값이 모분산을 지향하지 않게됩니다. 그렇다면 어떻게 하면 표본분산의 기대값이 모분산이 될것인가에 대해 수리적으로 계산을 한것이 N이 아닌 N-1 나눈 표본분산이 됩니다. 즉 N-1로 나눈 표본분산의 기대값이 모분산이 나오게 됩니다.
여기까지 이해하셨으면, 위의 이야기들은 이제 날려버리시고 깔끔하게 " "불편추정량"이 되기 위하여 n-1로 나눈 표본분산을 사용한다" 정도로 요약해서 기억하시면 별 무리가 없을듯 합니다. (불편추정량의 자세한 개념은 어느 통계학책이나 나와있을테니 필요시 참고하시길요, 표본표준편차는 표본분산의 양의 제곱근이니 별 다른 설명은 하지 않겠고요)

저작자표시 비영리 동일조건