티스토리

STWorld의 잡학사전

검색하기

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 33차 미션

카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 33차 미션

열린세계 2020. 9. 11. 00:04

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 33차 미션

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 33회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

12. Ch 03. Logistic Regression - 02. R code로 구현하는 Logistic Regression
13. Ch 03. Logistic Regression - 03. Logistic Regression 결과의 해석

12. Ch 03. Logistic Regression - 02. R code로 구현하는 Logistic Regression

여기서도 caret 패키지를 사용

여러가지 로지스틱 회귀분석 방법이 있는데, 여기서는 boosted logistic 회귀분석을 사용할 것

로지스틱 회귀분석

Boosted Logistic Regression (LogitBoost)

약+약+약+...를 이용하여 약한 로지스틱 회귀분석들을 합쳐서 강화(부스팅)한다는 의미
뒤에서도 소개하겠지만, 각각 서로 다른 변수에 대한 회귀분석을 더해서 확률을 높인다는 개념

Logistric Model Trees (LMT)

로지스틱 회귀를 의사결정나무와 합친 모형

Penalized Logistic Regression (plr)

이건 페널티를 주는 형태로 정확도를 높이는 방법

Regularized Logistic Regression

Boosted Logistic Regression

약한 분류기들을 더하는 방법

약한 분류기 = 피처 하나로 만든 로지스틱 회귀분석 모델

심장병 분류 모델

나이..하나로 분류기를 만들고, 성별로도 만들고,콜레스테롤 수치로도 만들고

이를 쭉 더해서 모형을 개선

Logistic Model Trees

Logostic 회귀와 의사결정 나무를 합친 모형

성별과 나이 분포에서,

성별을 가지고 영역을 나누고
각각의 나누어진 영역을 다시 나누고

이런 식으로 계속 영역을 나누는 방법

Penelized Logistic Regression

페널티를 준다는 의미

부정적인 의미는 아님 ^^
beta의 영역에 제한을 준다는 의미

선형회귀에서는 y에 제한이 없고, 로지스틱 회귀에서는 y에 제한이 있는데,

여기서는 beta에 제한을 주는 것

왜 beta에 제한을 줄까?

모델의 복잡성을 조절하기 위해서

beta에 제한이 없을 때, 모형이 매우 복잡해질 수 있다.

오버피팅이 발생할 수 있다는 의미!

따라서 beta에 제한을 주면 오버피팅을 피할 수 있음

'plr'을 쓰면 L2정규화를 사용하여 beta가 정해짐

L2정규화 beta의 제곱에 대한 식을 아래와 같이 사용

Regularized Logistic Regression

L1정규화

제곱이 아니라, 절대값을 사용
라쏘(lasso)라고 많이 부름

L2정규화는 릿지(Ridge)라고 부름

penalized는 릿지 리그레션, regularized는 라쏘 리그레션이라고 부르기도 함
결국 수식에선 아래와 같이 추가항이 붙는다고 함

13. Ch 03. Logistic Regression - 03. Logistic Regression 결과의 해석

먼저 Logistic Model Trees

반복도에 따른 정확도와 kappa 통계량을 확인 가능

21번째가 가장 정확

상태) 아마 21번 영역을 나누었을 때라는 의미일 듯

Penalized Logistic Regression

plr을 사용
여기에는 lambda가 나오는데...

이 의미?

lambda를 곱해서 beta의 영역을 조절할 수 있음

따라서 lambda의 크기에 따른 정확도를 확인할 수 있음

Regularized Logistic Regression

여기서도 accuracy, Kappa가 있고
cost, loss도 있고
L1, L2도 있고
dual, primal도 있고

primal은 파라미터 (beta) 기준 최적화
dual은 제약변수 기준 최적화

epsilon

학습을 하다가 언제 멈출지를 결정하는 변수
n회차와 n+1회차의 값을 비교해서 멈출 지 여부를 결정

cost
cost와 loss

loss를 아래와 같이 정의한다고 치자 (다양한 방법이 있지만 그 중 하나)
cost는 1/n을 곱했음
아래와 같이 표시

loss는 loss의 합
cost는 이를 n으로 나눈 것

다만 실무에서는 loss와 cost라는 용어가 많이 혼용됨

따라서 그때그때 용어가 어떤 의미로 사용되는 지 확인할 필요는 있음

저작자표시 비영리 동일조건