티스토리

STWorld의 잡학사전

검색하기

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션

카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션

열린세계 2020. 9. 24. 00:31

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 46회차 미션!

09. Ch 03. k-Means Analysis - 02. k 개수를 선택하는 방법
10. Ch 03. k-Means Analysis - 03. k-medoids의 개념 이해

09. Ch 03. k-Means Analysis - 02. k 개수를 선택하는 방법

이제 K-means clustering에서 K의 개수를 선택하는 방법

사전 정보를 가지고 k개수 설정

이미 군집이 몇개인지 알 고 있을 때가 있음

이 데이터를 '3가지 꽃으로 구분해라~'

Elbow method

within sum of square(WSS) 그래프에서 elbow point로 k 개수 설정

실루엣 방법 (Silhouette method)

군집 내 거리 (a)
최근접 군집 간의 거리(b)
이 둘을 비교하여 a는 최소, b는 최대가 되는 k로 개수 설정

Elbow method

sum of square (편차제곱합)

평균에서 각 데이터간의 거리 제곱을 모두 합한 값

참고 - sum of squre / 데이터수 = 분산

elbow point

군집 수를 늘려도 군집 내 데이터들의 거리가 더이상 크게 가까워지지 않는 지점

3개로 했을 때, 4개로 했을 때, 5개로 했을 때...를 계산

위의 경우 대략 4나 5 정도?

실루엣 방법

방법

군집 내 거리 (a)
최근접 군집 간의 거리(b)
이 둘을 비교하여 a는 최소, b는 최대가 되는 k로 개수 설정

아래의 수식

위의 식에서는 k=2일 때 가장 큼

10. Ch 03. k-Means Analysis - 03. k-medoids의 개념 이해

K-medoids clustering?

medoids = 중앙점
군집의 평균점이 아닌 중앙점을 찾아 군집화
극단치의 영향을 덜 받는 군집화 기법

방법

랜덤하게 K개의 데이터를 선택

k-means에서는 랜덤하게 K개의 점을 찍었었음
여기서는 점을 찍는게 아니라, 데이터를 선택!

그 데이터들의 중심으로 군집을 할당
다시 할당된 군집에서 중앙점을 찾고, 다시 군집화를 반복

예시

우선 2개의 데이터를 지정하고, 군집화하고, 중앙점을 찾고.. 이를 반복

2가지 방법을 소개했는데,

둘 다 거의 비슷한 반복법

다만 하나는 k개의 임의의 점을 찍어서 시작하며, 군집들의 '평균'을 이용하고

k-medoids는 k개의 데이터로부터 시작하며 그 데이터의 '중앙점'을 이용한다는 차이가 있음

결국 아웃라이어에 대한 대안으로서 이러한 방법을 사용하는 것으로 보임.

딱 봤을 때는 k-medoids가 k-means보다 나아 보이는 방법

사실상 사용하는 방법은 거의 흡사하고, k의 개수를 설정하는 방법은 동일한 것으로 보임

간만에 간단한 개념만 설명하는 거였고, 워낙 개념이 단순하다보니 명쾌하게 이해가 가는 내용이었음.

뒷 부분도 계속 그러면 좋으련만...

저작자표시 비영리 동일조건