티스토리

STWorld의 잡학사전

검색하기

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 34차 미션

카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 34차 미션

열린세계 2020. 9. 12. 01:06

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 34차 미션

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 34회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

14. Ch 03. Logistic Regression - 04. Logistic Regression 예제 실습
15. Ch 04. Naive Bayes Classification - 01. Naive Bayes Classification의 개념 이해

14. Ch 03. Logistic Regression - 04. Logistic Regression 예제 실습

심장병 유무에 대한 데이터로 실습을 해보자.

값을 가져오고 데이터를 분석

여기서는 데이터 타입을 잘 확인해보자.

int로 되어 있는 변수 중에 범주형 변수인 것들이 많음

여기서 target은 심장병 여부
sex도 남/녀일테니 범주형 변수

범주화

as.factor를 사용
unique

여러 값들 중, unique한 값들만 표시해주는 기능

어떤 값들이 존재하는 지 확인 가능

연속형 변수 -> 표준화, 범주형 변수는 범주화를 한다.

표준화는 scale을 사용
범주화는 as.factor를 사용

이 때, 아래 식과 같이

lapply (엘 어플라이)를 이용하면 여러 변수를 손쉽게 범주화 가능

전처리가 끝났으니 이제 트레이닝 테스트 셋 나누기 ( train과 test)

여기선 7:3으로 나누고

여기선 Boosted logistric을 사용할 것

cross validation을 5번할 것
모델 판별 기준은 accuracy
약한 모형을 계속 더하는 boosted방식

그래서 반복
21번 반복시에 가장 정확도가 높다고 하는데

상태) 대체 boosted에서 반복을 한다는 건 어떤 의미인가???? (질문필요)

plot(logitFit)을 해보면

정확도를그래프로 확인 가능

만들어진 모델을 test데이터로 예측

confusionMatrix를 써보자 정확도가 75.8%가 나옴

varImp를 사용하면 각 변수별로 심장병 유무 판별에 중요한 변수를 파악할 수 있음

scale변수는 TRUE/FALSE의 영향이 별로 없음

15. Ch 04. Naive Bayes Classification - 01. Naive Bayes Classification의 개념 이해

나이브 베이즈 분류

Bayes

확률에 베이즈 정리하는 것이 있음

이를 이용했다는 의미

Naive는 말 그대로 Naive하다.

예시

배드민턴 플레이 여부를 결정

날씨, 바람, 돈도, 습도
이와 같이 배드민턴이라는 클래스가 있고 4개의 클래스가 존재

조건부 확률이 중요

P(X=1)

확률변수가 1일 확률

P(X=1|Y=1)

Y-1일 때, X=1일 확률

축구라는 예가 있을 때,

X = 승리, 패배 확률
Y = 선제골 넣을 지, 선제골 먹을 지 확률
P(X = 승리)

단순히 승리할 확률

P(X=승리 |Y=선제골넣음)

선제골을 넣었을 때, 승리할 확률

베이즈 정리

조건부 확률을 아래와 같이 표현할 수 있음.

양변에 P(Y) 혹은 P(X)를 곱하면

여기서 P(X)는 사전확률(Prioor Probability): 이벤트 발생 전 확률

Y가 아직 발생하기 전의 확률
P(X|Y): 사후 확률

P(Y)는 상수로 고려

조건이 주어졌으므로
따라서 P(X|Y)는 P(Y|X)P(X)와 비례함...

다시 배드민턴 플레이 여부로 돌아와서

각 피처들은 서로 조건부 독립

독립은 독립인데, '조건이 주어졌을 때 독림'

각 피처에 대해 분할표를 만들어 보자.

위의 2는

맑음이면서 배드민턴을 친 날이 총 2회 있다는 의미

확률로 표시

모든 피처에 대해서 고려하면 다음과 같음

이제 최종적으로 알아야할 것을 정해보자.

새로운 분류표가 있을 때...

확률을 계산해서 높으면 네, 낮으면 아니오로 정리

다만 나이브 베이즈 정리를 이용했을 때, 정확한 확률을 계산하진 못함

배드민턴을 칠 확률과 안칠 확률을 비례식으로 계산해서 상대적인 크기 비교는 가능

칠 확률이 높으면 친다, 안칠 확률이 높으면 안친다로 판정

사실상 배트민튼 칠 지 여부는 아래와 같은 조건부 확률로 표현 가능

조건부 확률을 계산하는 방법

조건부 독립을 이용하면 아래와 같은 식으로 식을 변환 가능

아 때, 분모는 주어진 상수로 고려하기에, 비례식을 고려 가능

이제 동일한 방법으로 배드맨턴을 칠 확률을 계산

배드민턴을 칠 지, 안칠 지를 계산하는 방법

배드민턴을 칠 확률 vs. 배드민턴을 안칠 확률 을 비교
이렇게 해서 아래와 같은 결론

Boosted 로지스틱 회귀분석에서 반복을 한다는 게 어떤 의미인지 좀 더 스터디가 필요

나이브 베이즈 정리는 과거에도 학습했지만, 정확한 확률을 구하는 건 아니고, 여러 조건에 따른 조건부 확률을 이용하는데, 상대적인 확률을 계산해서 어느 쪽 확률이 높은지 판단하는 데 활용

저작자표시 비영리 동일조건