I. 데이터 분류 예측 기법, 의사결정트리
-. 의사결정 규칙 과정을 트리 구조로 단계별 도표화하여 분류 또는 예측을수행하는 통계분석 기법
-. 각 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류예측 모델
-. 의사결정트리는 분류와 회귀 모두 가능
구분 | 특징 | 설명 |
장점 | 결과해석용이 | 직관적인 해석 가능 주요 변수의 분리기준 제시 |
비모수적 모델 | 통계 모델에 요구되는 가정에 자유로움(예: 정규성 독립성, 등분산성) | |
변수간 상호작용 | 변수간의 상호작용을 고려하며 선형, 비선형 관계 탐색 가능 | |
단점 | 비안정성 | 데이터 수가 적을 경우 특히 불안정 과대적합 발생률 높음(가지치기 필요) |
선형성 미흡 | 전체적인 선형관계 파악 미흡 | |
비연속성 | 분리 시 연속형 변수를 구간화 처리(비연속화) 분리 경계점 근처에 오류발생가능 |
II. 의사결정트리 형성과정
처리절차 | 핵심요소 | 설명 |
기준설정 | 분리기준(split criterion), 정지규칙 지정 |
|
Recursie Partitioning | 지니계수, 엔트로피 계산 |
|
가지치기 | 부적절 규칙의 가지 제거 |
|
타당성 평가 | Cross Validation |
|
해석 및 예측 | 모형 결정 |
|
Split 수가 증가할 수록 training set의 에러율은 감소하지만 validation set은 특정 지점부터 에러율이 증가하므로, 해당 지점에서 split수를 결정해야함
III. 의사결정트리 사용 알고리즘
알고리즘 | 설명 | 분류나무 | 회귀나무 |
CART (Classification And Regression Tree) |
|
O | O |
CHAID (CHi-squared Automatic Interaction Detection) |
|
O | O |
C5.0 |
|
O | X |
의사결정트리는 결정경계가 데이터 축에 수직이어서 특정 데이터에만 잘 작동할 가능성이 높아 이같은 문제를 극복하기 위해 등장한 모델이 랜덤포레스트임
랜덤포레스트는 같은 데이터에 의해 의사결정트리를 여러 개 만들어 그 결과를 종합해 예측 성능을 높이는 방법
엔트로피지수:불순도를 측정하는 지표로서 정보량(데이터가 섞여 있는 정도)의 (항아리에서 뽑을 공) 기대값
지니계수: 불순도를 측정하는 지표로서 데이터의 통계적 분산정도를 정량화애서 표현한 값
'6. 최신기술, 법규 및 정책 > 인공지능' 카테고리의 다른 글
K means 알고리즘 (1) | 2022.11.03 |
---|---|
교차검증(Cross Validation) (0) | 2022.11.02 |
중심성 평가 (0) | 2022.11.01 |
신경망(Neural Network) 분석 (0) | 2022.07.13 |