STWorld의 잡학사전

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 48차 미션

2020. 9. 26. 01:08ㆍ카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 48차 미션

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

오늘은 48회차 미션!

13. Ch 03. k-Means Analysis - 06. K means 실습 2
14. Ch 04. Hierarchical Clustering Analysis - 01. Hierarchical Clustering의 개념 이해

13. Ch 03. k-Means Analysis - 06. K means 실습 2

이번에는 이미지의 색상 축소를 K-means를 이용해서 해보자.
PCA와 작업 순서는 비슷

library(jpeg)를 이용함
3차원 데이터를 우선 2차원으로 변경해야 함

각 데이터를 x, y에 대해서 돌면서 RGB array값을 읽어와서 R, G, B를 각각 찍어줌 (data frame으로)
그러면 2차원 데이터로 찍힘.

k-means를 이용해서 대표색을 결정하게 되고.

이 때, 몇개의 대표색으로 줄일 지 결정

일전의 방법과 동일하게 3, 5, 10, 15, 30, 50으로 군집 개수를 결정

kmeans() 함수를 사용
여기서는 K를 고르는 게 trial & error임

이렇게 결정된 데이터를 다시 이미지 파일로 생성.

위와 같이 색상이 축소된 결과를 얻을 수 있음

14. Ch 04. Hierarchical Clustering Analysis - 01. Hierarchical Clustering의 개념 이해

계층적 군집 분석
유사한 성징을 가지는 데이터끼리 군집을 나눔
목표도 동일

군집 내 데이터들의 거리는 가깝게, 군집 간 거리는 멀게

계층적 군집화

가장 가까운 데이터끼리 순차적(계층적)으로 묶어 나가는 방법

거리를 재는 방법 (유사한 정도)

3가지

유클리드 거리
맨하탄 거리
correlation

이 중에는 유클리드 거리가 제일 많이 사용됨

군집을 구성할 방법은 5가지

5가지 방법

최단거리 (single)
최장거리 (complete)
평균기준법 (average)
중앙중심법 (median)
ward's method

이 중에는 중웅중심법이나 워즈 방법이 많이 사용됨

아무래도 여러 데이터를 사용하기때문에 아웃라이어의 영향을 덜 받음

예를 들어서 설명해보자.

A, B, C, D의 데이터가 있으면 각각의 거리를 아래와 같이 계산해봄

그렇게 계산하면, A, D가 묶임
그 후, A-D군집과 나머지 B, C간의 거리를 결정

이 때, 군집과 다른 데이터간의 거리를 구하는 방법이 위에서 이야기한 5가지 방법

예를 들어 A-D와 B와의 거리를 구한다면

최단거리 (single)

A-B, D-B 중 최단거리 사용

최장거리 (complete)

A-B, D-B 중 최장거리 사용

평균기준법 (average)

A-D의 평균점과 B의 거리사용

중앙중심법 (median)

A-D의 중앙값과 B의 거리 사용

ward's method

군집이 확장되었을 때 추가되는 분산이 적은 군집끼리 묶어주는 방법

새로운 군집이 구성되기 전의 각 분산값의 합과, 새로운 군집의 분산값의 차이를 사용
이 때, 추가되는 분산이 적은 것을 사용한다는 개념

다시 원래 예시로 돌아가보면, 아래와 같이 진행됨

k를 구하는 건, 사용자가 Dendrogram을 보고 적당히 결정

아래의 덴드로그램에서 적당히 잘라. 그러면 그룹의 개수가 정해짐
무작정 한다기보다는 우선 그려본 후, 잘 보고 결정 ^^

그러다보니 데이터가 좀 적은 경우에 사용하는 때가 많아

hierarchical과 K-means와의 차이

계층적 방법은

범주형 데이터도 분류에 사용할 수 있음
다만 데이터의 양이 적을 때 적절하다.

계측정 군집화의 활용처

k-means와 거의 동일한데..

데이터가 계층적으로 유사한 특징을 가질 때 적합

A와 B가 가깝고, 그 다음으로 C와 가깝다는 특징 등..

전반적인 활용처는 비슷

계층적 군집화도 아주 유용할 듯.

예를 들어, 와인의 특성은 범주형 데이터가 많기때문에 계층적 군집화를 적용해야할 듯

계층적 방법은

범주형 데이터도 분류에 사용할 수 있음
다만 데이터의 양이 적을 때 적절하다.

계측정 군집화의 활용처

k-means와 거의 동일한데..

데이터가 계층적으로 유사한 특징을 가질 때 적합

A와 B가 가깝고, 그 다음으로 C와 가깝다는 특징 등..

저작자표시 비영리 동일조건

댓글 0

티스토리툴바