I. K-Means 알고리즘
-. 입력값으로 k를 취하고 군집 내 유사성은 높게, 군집간 유사성은 낮게 되도록 n개의 객체집합을 k개의 군집으로 군집하는 기법
-. 주어진 데이터를 사전에 정의된 k개의 클러스터로 묶는 알고리즘
-. 각 개체의 동질성을 거리를 이용해 측정하여 동질성이 높은 (서로 비슷한) 대상 군집을 판별하고 군집에 속한 개체들의 동질성과 서로 다른 군집에 속한 개체 간의 이질성을 규명하는 분석 방법
-. 중심값을 선정하고 중심값과 다른 데이터 간의 거리를 이용하여 분류를 수행하는 버지도 학습
-. 군집 별 중심값에서 중심과의 거리를 기반으로 데이터를 분류하는 비계층적 군집 기법의 종류
-. 특징: Data 중심, 거리기반의 분류법, 데이터군 양자화, 속도 및 구현
특징 | 설명 |
Data중심점(Centroid) | 군집화된 데이터는 중복되지 않으며 상호배타적 포함 |
거리 기반의 분류기법 | 각 군집의 중심점과의 유클리디안 거리 최소화 |
데이터군 양자화 | 데이터군을 양자화하여 분할 시 발생하는 오류 최소화 |
속도 및 구현 | 거리기반의 군집기법으로 빠른 결과 산출, 구현 용이성 |
II. K-Means 알고리즘 원리 및 절차
가 .K-Means 알고리즘 원리
나. K-Means 알고리즘 절차
단계 | 절차 |
1 | 군집의 수 K를 정의 |
2 | 초기 K개 군집의 중심(Centroids) 선택 |
3 | 각 관측 값들을 가장 가까운 중심의 군집에 할당 |
4 | 새로운 군집의 중심 계산 |
5 | 재 정의 된 중심값 기준으로 다시 거리기반의 군집 재분류 |
6 | 군집 경계가 변경되지 않을 때까지 반복 |
II. K-Means 알고리즘 분석 원리 및 절차
가. K-Means 알고리즘 분석 원리
나. K-Means 알고리즘 분석 절차
단계 | 설명 |
1 | k값을 초기값으로 먼저 받고, k개의 초기 군집의 임의 중심점을 설정 |
2 | 각 개체와 군집 중심점 사이의 거리를 계산 |
3 | 가장 가까운 중심점 군집으로 재할당 |
4 | 변경된 군집을 기준으로 개체와 군집 중심점 사이의 거리를 다시 계산 |
5 | 3~4단계를 군집의 변동이 없을 때가지 반복 |
III. -Means 알고리즘 유형
가. 유사성 측정
유사성 측정 척도 | 설명 |
유클리디안 거리1 (=유클리드 거리) |
|
나. 엘보우(Elbow)
- 군집 내 제곱합의 변화가 상대적으로 감소(완만)해지는 지점의 군집 수가 적정 군집수(k)를 의미
- 군집 수(k)를 크게 설정할 경우, 과적합 위험이 있음
- 위 그림을 기준으로 볼 때, 군집 수가 3개를 넘어가면 제곱합의 감소하는 변화율이 상대적으로 작아지므로 적정 군집수를 3개로 판단할 수 있음
- 적정 군집 수가 3개로 판단되었다고 하더라도 각 군집의 특성을 확인해 보고 군집이 2개일 경우, 4개일 경우에 대한 비교도 필요함
다. 실루엣(Silhouette)
- 군집 간 이질적이고 군집 내 동질적인 정도를 수치화한 값이며, 군집 수가 확실히 정해진 상태가 아닐 경우 적정 군집 수(k)를 결정하는데 사용함
- 값이 1에 가까울 수록 상대적으로 군집 간 이질적이고, 군집 내 동질적인 경우를 의미함
- 군집 수(k)를 크게 설정할 경우, 과적합 위험이 있음
- 실루엣 계수의 범위 : -1 ≤ 실루엣 계수 ≤ 1
0 ∠ 실루엣 계수 ≤ 1 | 가장 가까운 이웃 군집 간 평균거리가 군집 내 평균거리 보다 큰 경우를 의미 군집 내 평균 거리가 0에 가까울 수록 1이 됨 |
실루엣 계수 = 0 | 가장 가까운 이웃 군집 간 평균 거리와 군집 내 평균 거리가 동일한 경우를 의미 |
-1 ≤ 실루엣 계수 ∠ | 가장 가까운 이웃 군집 간 평균 거리가 군집 내 평균 거리보다 작은 경우를 의미하며, 가장 가까운 이웃 군집 간 거리가 0에 가까울수록 -1이 됨 |
IV. K means 알고리즘의 장단점
장점 | 단점 |
|
|
'6. 최신기술, 법규 및 정책 > 인공지능' 카테고리의 다른 글
의사결정트리 (0) | 2022.11.03 |
---|---|
교차검증(Cross Validation) (0) | 2022.11.02 |
중심성 평가 (0) | 2022.11.01 |
신경망(Neural Network) 분석 (0) | 2022.07.13 |