3주차_#5. K-means의 대표적인 의미론적 단점은 무엇인가? (계산량이 많다는 것 말고)

Study-넘버웍스 (2017)

3주차_#5. K-means의 대표적인 의미론적 단점은 무엇인가? (계산량이 많다는 것 말고)

파이3.14 2017. 10. 10. 02:13

K-means Algorithm

- 비지도 학습 모델, clustering 모델

1. 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다.

2. 다음 수행헤서 좀 더 중심에 위치한 중심값을 선정하고, 분류하는 과정을 반복한다.

3. 더 이상 분류가 되지 않을 경우 해당 작업을 종료한다.

- K-means는 같은 클러스터에 속한 데이터는 서로 '가깝다'라고 가정하고, 각각의 클러스터마다 '중심'이 하나씩 존재한다. 각각의 데이터가 그 중심과 '얼마나 가까운가'를 cost로 정의하고, K-means는 이렇게 정의된 cost를 가장 최소화 하는 클러스터를 찾는 알고리즘이다.

- 장점

1. 간단한 알고리즘으로 대규모에도 적용이 가능하다. (계산시간이 짧다)

2. 주어진 자료에 대한 사전정보 없이 의미 있는 자료구조를 찾아 낼 수 있다.

- 단점

1. 분석 결과가 관찰치 사이의 거리 또는 유사성을 어떻게 정의하느냐에 따라 크게 좌우된다. 즉, K-means algorithm은 초기화에 따라 다른 결과가 나타날 수 있다. 초기화가 잘못 된다면 나쁜 경우 local optima에 빠지는 경우가 존재한다. (참고 : https://wikidocs.net/4693)

2. 결과해석이 어렵다. (∵탐색적인 분석방법으로 장점을 가지고 있는 반면 사전에 주어진 목적이 없으므로 결과를 해석하는데 어려움이 존재)

[참고]

http://needjarvis.tistory.com/140

http://sanghyukchun.github.io/69/

K-means initialization https://wikidocs.net/4693