[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 34차 미션
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 34차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 34회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
14. Ch 03. Logistic Regression - 04. Logistic Regression 예제 실습
-
15. Ch 04. Naive Bayes Classification - 01. Naive Bayes Classification의 개념 이해
-
14. Ch 03. Logistic Regression - 04. Logistic Regression 예제 실습
-
심장병 유무에 대한 데이터로 실습을 해보자.
-
-
값을 가져오고 데이터를 분석
-
여기서는 데이터 타입을 잘 확인해보자.
-
int로 되어 있는 변수 중에 범주형 변수인 것들이 많음
-
여기서 target은 심장병 여부
-
sex도 남/녀일테니 범주형 변수
-
범주화
-
as.factor를 사용
-
unique
-
여러 값들 중, unique한 값들만 표시해주는 기능
-
어떤 값들이 존재하는 지 확인 가능
-
연속형 변수 -> 표준화, 범주형 변수는 범주화를 한다.
-
표준화는 scale을 사용
-
범주화는 as.factor를 사용
-
이 때, 아래 식과 같이
-
lapply (엘 어플라이)를 이용하면 여러 변수를 손쉽게 범주화 가능
-
전처리가 끝났으니 이제 트레이닝 테스트 셋 나누기 ( train과 test)
-
여기선 7:3으로 나누고
-
여기선 Boosted logistric을 사용할 것
-
cross validation을 5번할 것
-
모델 판별 기준은 accuracy
-
약한 모형을 계속 더하는 boosted방식
-
그래서 반복
-
21번 반복시에 가장 정확도가 높다고 하는데
-
상태) 대체 boosted에서 반복을 한다는 건 어떤 의미인가???? (질문필요)
-
plot(logitFit)을 해보면
-
정확도를그래프로 확인 가능
-
만들어진 모델을 test데이터로 예측
-
confusionMatrix를 써보자 정확도가 75.8%가 나옴
-
-
varImp를 사용하면 각 변수별로 심장병 유무 판별에 중요한 변수를 파악할 수 있음
-
scale변수는 TRUE/FALSE의 영향이 별로 없음
-
15. Ch 04. Naive Bayes Classification - 01. Naive Bayes Classification의 개념 이해
-
나이브 베이즈 분류
-
Bayes
-
확률에 베이즈 정리하는 것이 있음
-
이를 이용했다는 의미
-
Naive는 말 그대로 Naive하다.
-
예시
-
배드민턴 플레이 여부를 결정
-
날씨, 바람, 돈도, 습도
-
이와 같이 배드민턴이라는 클래스가 있고 4개의 클래스가 존재
-
조건부 확률이 중요
-
P(X=1)
-
확률변수가 1일 확률
-
P(X=1|Y=1)
-
Y-1일 때, X=1일 확률
-
축구라는 예가 있을 때,
-
X = 승리, 패배 확률
-
Y = 선제골 넣을 지, 선제골 먹을 지 확률
-
P(X = 승리)
-
단순히 승리할 확률
-
P(X=승리 |Y=선제골넣음)
-
선제골을 넣었을 때, 승리할 확률
-
베이즈 정리
-
조건부 확률을 아래와 같이 표현할 수 있음.
-
양변에 P(Y) 혹은 P(X)를 곱하면
-
여기서 P(X)는 사전확률(Prioor Probability): 이벤트 발생 전 확률
-
Y가 아직 발생하기 전의 확률
-
P(X|Y): 사후 확률
-
-
P(Y)는 상수로 고려
-
조건이 주어졌으므로
-
따라서 P(X|Y)는 P(Y|X)P(X)와 비례함...
-
다시 배드민턴 플레이 여부로 돌아와서
-
각 피처들은 서로 조건부 독립
-
독립은 독립인데, '조건이 주어졌을 때 독림'
-
각 피처에 대해 분할표를 만들어 보자.
-
-
위의 2는
-
맑음이면서 배드민턴을 친 날이 총 2회 있다는 의미
-
확률로 표시
-
모든 피처에 대해서 고려하면 다음과 같음
-
이제 최종적으로 알아야할 것을 정해보자.
-
새로운 분류표가 있을 때...
-
확률을 계산해서 높으면 네, 낮으면 아니오로 정리
-
다만 나이브 베이즈 정리를 이용했을 때, 정확한 확률을 계산하진 못함
-
배드민턴을 칠 확률과 안칠 확률을 비례식으로 계산해서 상대적인 크기 비교는 가능
-
칠 확률이 높으면 친다, 안칠 확률이 높으면 안친다로 판정
-
사실상 배트민튼 칠 지 여부는 아래와 같은 조건부 확률로 표현 가능
-
조건부 확률을 계산하는 방법
-
조건부 독립을 이용하면 아래와 같은 식으로 식을 변환 가능
-
아 때, 분모는 주어진 상수로 고려하기에, 비례식을 고려 가능
-
이제 동일한 방법으로 배드맨턴을 칠 확률을 계산
-
배드민턴을 칠 지, 안칠 지를 계산하는 방법
-
배드민턴을 칠 확률 vs. 배드민턴을 안칠 확률 을 비교
-
이렇게 해서 아래와 같은 결론
Boosted 로지스틱 회귀분석에서 반복을 한다는 게 어떤 의미인지 좀 더 스터디가 필요
나이브 베이즈 정리는 과거에도 학습했지만, 정확한 확률을 구하는 건 아니고, 여러 조건에 따른 조건부 확률을 이용하는데, 상대적인 확률을 계산해서 어느 쪽 확률이 높은지 판단하는 데 활용