본문 바로가기
머신러닝

군집화와 k-means(데이터 마이닝)

by 주니코니 2023. 9. 21.

목차

-군집화란?

-계층적/비계층적 군집화

-how 그룹핑?

-k-means

 

*이상철교수님의 데이터마이닝 수업을 요약했습니다


군집화란?

그룹으로 묶어 구분하다

k-means는 비지도 학습이다

 

계층적 군집화와 비계층적 군집화 

1.계층적 군집화 : 개체간 거리 계산, 병합+분리(두개에서부터 데이터 끝까지 다 묶어준다)

2.비계층적 군집화 : 사전에 그룹 수 지정해서 거리 계산 

-현실에서 많이 쓰는 방법

-몇개의 군집이 정답인가? 하나씩 다 해봐야한다! 

- 대규모 데이터를 처리에 유용

-k means


how 그룹핑?

나눌 때 '어떤 속성을 가지고' 그룹화를 시켜야하는데..

 

1) 개체간 *거리를 계산해서 비슷한 개체끼리 나눈다.

*피타고라스의 정의(유클리드 거리)

 

2) 표준화 시키고 그룹핑하기!(그렇지 않으면 단위가 다 달라 비교하기 어렵다)

 

3) 거리 계산 후 *어떻게 군집화할 것인가?

*최단거리, 최장거리, 평균거리, 중심거리 

 

k-means

k-means : 임의의 특정 점(중심점)을 찍어 개체와 중심점 간 거리를 측정, 가까운 중심점으로 분리

출처 : https://www.youtube.com/watch?v=lpFlZ6c_NBw 

 

그래도 어렵다면 이 영상 추천 ❤️

https://www.youtube.com/watch?v=9TR54u08IGU