[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 46회차 미션!
-
09. Ch 03. k-Means Analysis - 02. k 개수를 선택하는 방법
-
10. Ch 03. k-Means Analysis - 03. k-medoids의 개념 이해
-
09. Ch 03. k-Means Analysis - 02. k 개수를 선택하는 방법
-
이제 K-means clustering에서 K의 개수를 선택하는 방법
-
사전 정보를 가지고 k개수 설정
-
이미 군집이 몇개인지 알 고 있을 때가 있음
-
이 데이터를 '3가지 꽃으로 구분해라~'
-
Elbow method
-
within sum of square(WSS) 그래프에서 elbow point로 k 개수 설정
-
실루엣 방법 (Silhouette method)
-
군집 내 거리 (a)
-
최근접 군집 간의 거리(b)
-
이 둘을 비교하여 a는 최소, b는 최대가 되는 k로 개수 설정
-
Elbow method
-
sum of square (편차제곱합)
-
평균에서 각 데이터간의 거리 제곱을 모두 합한 값
-
참고 - sum of squre / 데이터수 = 분산
-
elbow point
-
군집 수를 늘려도 군집 내 데이터들의 거리가 더이상 크게 가까워지지 않는 지점
-
3개로 했을 때, 4개로 했을 때, 5개로 했을 때...를 계산
-
위의 경우 대략 4나 5 정도?
-
실루엣 방법
-
방법
-
군집 내 거리 (a)
-
최근접 군집 간의 거리(b)
-
이 둘을 비교하여 a는 최소, b는 최대가 되는 k로 개수 설정
-
아래의 수식
-
위의 식에서는 k=2일 때 가장 큼
-
10. Ch 03. k-Means Analysis - 03. k-medoids의 개념 이해
-
K-medoids clustering?
-
medoids = 중앙점
-
군집의 평균점이 아닌 중앙점을 찾아 군집화
-
극단치의 영향을 덜 받는 군집화 기법
-
방법
-
랜덤하게 K개의 데이터를 선택
-
k-means에서는 랜덤하게 K개의 점을 찍었었음
-
여기서는 점을 찍는게 아니라, 데이터를 선택!
-
그 데이터들의 중심으로 군집을 할당
-
다시 할당된 군집에서 중앙점을 찾고, 다시 군집화를 반복
-
예시
-
우선 2개의 데이터를 지정하고, 군집화하고, 중앙점을 찾고.. 이를 반복
2가지 방법을 소개했는데,
둘 다 거의 비슷한 반복법
다만 하나는 k개의 임의의 점을 찍어서 시작하며, 군집들의 '평균'을 이용하고
k-medoids는 k개의 데이터로부터 시작하며 그 데이터의 '중앙점'을 이용한다는 차이가 있음
결국 아웃라이어에 대한 대안으로서 이러한 방법을 사용하는 것으로 보임.
딱 봤을 때는 k-medoids가 k-means보다 나아 보이는 방법
사실상 사용하는 방법은 거의 흡사하고, k의 개수를 설정하는 방법은 동일한 것으로 보임
간만에 간단한 개념만 설명하는 거였고, 워낙 개념이 단순하다보니 명쾌하게 이해가 가는 내용이었음.
뒷 부분도 계속 그러면 좋으련만...