[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션

2020. 9. 24. 00:31카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 46차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 46회차 미션!

  1. 09. Ch 03. k-Means Analysis - 02. k 개수를 선택하는 방법

  2. 10. Ch 03. k-Means Analysis - 03. k-medoids의 개념 이해

 

  1. 09. Ch 03. k-Means Analysis - 02. k 개수를 선택하는 방법

    1. 이제 K-means clustering에서 K의 개수를 선택하는 방법

      1. 사전 정보를 가지고 k개수 설정

        1. 이미 군집이 몇개인지 알 고 있을 때가 있음

          1. 이 데이터를 '3가지 꽃으로 구분해라~'

        2. Elbow method

          1. within sum of square(WSS) 그래프에서 elbow point로 k 개수 설정

        3. 실루엣 방법 (Silhouette method)

          1. 군집 내 거리 (a)

          2. 최근접 군집 간의 거리(b)

          3. 이 둘을 비교하여 a는 최소, b는 최대가 되는 k로 개수 설정

      2. Elbow method

        1. sum of square (편차제곱합)

          1. 평균에서 각 데이터간의 거리 제곱을 모두 합한 값

            1. 참고 - sum of squre / 데이터수 = 분산

        2. elbow point

          1. 군집 수를 늘려도 군집 내 데이터들의 거리가 더이상 크게 가까워지지 않는 지점

            1. 3개로 했을 때, 4개로 했을 때, 5개로 했을 때...를 계산

          1. 위의 경우 대략 4나 5 정도?

      3. 실루엣 방법

        1. 방법

          1. 군집 내 거리 (a)

          2. 최근접 군집 간의 거리(b)

          3. 이 둘을 비교하여 a는 최소, b는 최대가 되는 k로 개수 설정

        2. 아래의 수식

          1. 위의 식에서는 k=2일 때 가장 큼

  2. 10. Ch 03. k-Means Analysis - 03. k-medoids의 개념 이해

    1. K-medoids clustering?

      1. medoids = 중앙점

      2. 군집의 평균점이 아닌 중앙점을 찾아 군집화

      3. 극단치의 영향을 덜 받는 군집화 기법

    2. 방법

      1. 랜덤하게 K개의 데이터를 선택

        1. k-means에서는 랜덤하게 K개의 점을 찍었었음

        2. 여기서는 점을 찍는게 아니라, 데이터를 선택!

      2. 그 데이터들의 중심으로 군집을 할당

      3. 다시 할당된 군집에서 중앙점을 찾고, 다시 군집화를 반복

    3.  예시

        1. 우선 2개의 데이터를 지정하고, 군집화하고, 중앙점을 찾고.. 이를 반복

 

 

2가지 방법을 소개했는데, 

둘 다 거의 비슷한 반복법

다만 하나는 k개의 임의의 점을 찍어서 시작하며, 군집들의 '평균'을 이용하고

k-medoids는 k개의 데이터로부터 시작하며 그 데이터의 '중앙점'을 이용한다는 차이가 있음

결국 아웃라이어에 대한 대안으로서 이러한 방법을 사용하는 것으로 보임.

 

딱 봤을 때는 k-medoids가 k-means보다 나아 보이는 방법

사실상 사용하는 방법은 거의 흡사하고, k의 개수를 설정하는 방법은 동일한 것으로 보임

 

간만에 간단한 개념만 설명하는 거였고, 워낙 개념이 단순하다보니 명쾌하게 이해가 가는 내용이었음.

뒷 부분도 계속 그러면 좋으련만...