6. 최신기술, 법규 및 정책/인공지능

K means 알고리즘

SWExpert 2022. 11. 3. 00:41

I. K-Means 알고리즘

-. 입력값으로 k를 취하고 군집 내 유사성은 높게, 군집간 유사성은 낮게 되도록 n개의 객체집합을 k개의 군집으로 군집하는 기법

-. 주어진 데이터를 사전에 정의된 k개의 클러스터로 묶는 알고리즘

-. 각 개체의 동질성을 거리를 이용해 측정하여 동질성이 높은 (서로 비슷한) 대상 군집을 판별하고 군집에 속한 개체들의 동질성과 서로 다른 군집에 속한 개체 간의 이질성을 규명하는 분석 방법

-. 중심값을 선정하고 중심값과 다른 데이터 간의 거리를 이용하여 분류를 수행하는 버지도 학습

-. 군집 별 중심값에서 중심과의 거리를 기반으로 데이터를 분류하는 비계층적 군집 기법의 종류

-. 특징: Data 중심, 거리기반의 분류법, 데이터군 양자화, 속도 및 구현

특징 설명
Data중심점(Centroid) 군집화된 데이터는 중복되지 않으며 상호배타적 포함
거리 기반의 분류기법 각 군집의 중심점과의 유클리디안 거리 최소화
데이터군 양자화 데이터군을 양자화하여 분할 시 발생하는 오류 최소화
속도 및 구현 거리기반의 군집기법으로 빠른 결과 산출, 구현 용이성

 

 

 

II. K-Means 알고리즘 원리 및 절차

가 .K-Means 알고리즘 원리

 

나. K-Means 알고리즘 절차

단계 절차
1 군집의 수 K를 정의
2 초기 K개 군집의 중심(Centroids) 선택
3 각 관측 값들을 가장 가까운 중심의 군집에 할당
4 새로운 군집의 중심 계산
5 재 정의 된 중심값 기준으로 다시 거리기반의 군집 재분류
6 군집 경계가 변경되지 않을 때까지 반복

 

II. K-Means 알고리즘 분석 원리 및 절차

가.  K-Means 알고리즘 분석 원리

나.  K-Means 알고리즘 분석 절차

단계 설명
1 k값을 초기값으로 먼저 받고, k개의 초기 군집의 임의 중심점을 설정
2 각 개체와 군집 중심점 사이의 거리를 계산
3 가장 가까운 중심점 군집으로 재할당
4 변경된 군집을 기준으로 개체와 군집 중심점 사이의 거리를 다시 계산
5 3~4단계를 군집의 변동이 없을 때가지 반복

 

III. -Means 알고리즘 유형

가. 유사성 측정

유사성 측정 척도 설명
유클리디안 거리1
(=유클리드 거리)
  • 임의의 두 지점간의 최단거리, 양 지점간의 직선거리
  • 각 변수 값에서의 차이를 제곱한 것을 합하고 이를 제곱근

  나. 엘보우(Elbow)

  • 군집 내 제곱합의 변화가 상대적으로 감소(완만)해지는 지점의 군집 수가 적정 군집수(k)를 의미
  • 군집 수(k)를 크게 설정할 경우, 과적합 위험이 있음

  • 위 그림을 기준으로 볼 때, 군집 수가 3개를 넘어가면 제곱합의 감소하는 변화율이 상대적으로 작아지므로 적정 군집수를 3개로 판단할 수 있음
  • 적정 군집 수가 3개로 판단되었다고 하더라도 각 군집의 특성을 확인해 보고 군집이 2개일 경우, 4개일 경우에 대한 비교도 필요함

  다. 실루엣(Silhouette)

  • 군집 간 이질적이고 군집 내 동질적인 정도를 수치화한 값이며, 군집 수가 확실히 정해진 상태가 아닐 경우 적정 군집 수(k)를 결정하는데 사용함
  • 값이 1에 가까울 수록 상대적으로 군집 간 이질적이고, 군집 내 동질적인 경우를 의미함
  • 군집 수(k)를 크게 설정할 경우, 과적합 위험이 있음
  • 실루엣 계수의 범위 :  -1 ≤ 실루엣 계수 ≤ 1
0 ∠ 실루엣 계수 ≤ 1 가장 가까운 이웃 군집 간 평균거리가 군집 내 평균거리 보다 큰 경우를 의미
군집 내 평균 거리가 0에 가까울 수록 1이 됨
실루엣 계수 = 0 가장 가까운 이웃 군집 간 평균 거리와 군집 내 평균 거리가 동일한 경우를 의미
-1 ≤ 실루엣 계수 ∠ 가장 가까운 이웃 군집 간 평균 거리가 군집 내 평균 거리보다 작은 경우를 의미하며, 가장 가까운 이웃 군집 간 거리가 0에 가까울수록 -1이 됨

 

 

IV. K means 알고리즘의 장단점

장점 단점
  • 개체 간의 거리를 기반하여 군집을 분류하는 원리가 간단함
  • 데이터 변환 없이 그 자체로 이용할 수 있어 데이터 구조가 간단함
  • 개체가 많은 경우에도 쉽게 사용됨(계산시간 짧음)
  • 거리를 기반으로 군집을 형성하기 때문에 구형이 아닌 형태의 군집 분류는 어려움
  • 초기 군집 수(k)에 따라 결과가 달라짐
  • 연구자 주관에 따라 해석이 다를 수 있음
  • 변수의 유형에 제한이 있음(범주형 변수 사용 불가)

'6. 최신기술, 법규 및 정책 > 인공지능' 카테고리의 다른 글

의사결정트리  (0) 2022.11.03
교차검증(Cross Validation)  (0) 2022.11.02
중심성 평가  (0) 2022.11.01
신경망(Neural Network) 분석  (0) 2022.07.13