K-means Algorithm
- 비지도 학습 모델, clustering 모델
1. 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다.
2. 다음 수행헤서 좀 더 중심에 위치한 중심값을 선정하고, 분류하는 과정을 반복한다.
3. 더 이상 분류가 되지 않을 경우 해당 작업을 종료한다.
- K-means는 같은 클러스터에 속한 데이터는 서로 '가깝다'라고 가정하고, 각각의 클러스터마다 '중심'이 하나씩 존재한다. 각각의 데이터가 그 중심과 '얼마나 가까운가'를 cost로 정의하고, K-means는 이렇게 정의된 cost를 가장 최소화 하는 클러스터를 찾는 알고리즘이다.
- 장점
1. 간단한 알고리즘으로 대규모에도 적용이 가능하다. (계산시간이 짧다)
2. 주어진 자료에 대한 사전정보 없이 의미 있는 자료구조를 찾아 낼 수 있다.
- 단점
1. 분석 결과가 관찰치 사이의 거리 또는 유사성을 어떻게 정의하느냐에 따라 크게 좌우된다. 즉, K-means algorithm은 초기화에 따라 다른 결과가 나타날 수 있다. 초기화가 잘못 된다면 나쁜 경우 local optima에 빠지는 경우가 존재한다. (참고 : https://wikidocs.net/4693)
2. 결과해석이 어렵다. (∵탐색적인 분석방법으로 장점을 가지고 있는 반면 사전에 주어진 목적이 없으므로 결과를 해석하는데 어려움이 존재)
[참고]
http://needjarvis.tistory.com/140
http://sanghyukchun.github.io/69/
K-means initialization https://wikidocs.net/4693
'Study-넘버웍스 (2017)' 카테고리의 다른 글
4주차_#2. 최적화 기법중 Newton's Method와 Gradient Descent 방법을 설명하세요. (0) | 2017.10.16 |
---|---|
4주차_#1. 머신러닝과 통계의 차이 (0) | 2017.10.16 |
3주차_#4. 서버를 100대 가지고 있는 경우, 인공신경망보다 Random Forest를 써야하는 이유는? (0) | 2017.10.10 |
3주차_#3. 오래된 머신러닝 기법인 나이브베이즈(naïve bayes)의 장점 (0) | 2017.10.10 |
3주차_#2. 베이지안(Bayesian)과 프리퀀티스트(Frequentist) 간의 입장 차이 (4) | 2017.10.09 |