6. 최신기술, 법규 및 정책/인공지능

의사결정트리

SWExpert 2022. 11. 3. 00:51

I. 데이터 분류 예측 기법, 의사결정트리

-. 의사결정 규칙 과정을 트리 구조로 단계별 도표화하여 분류 또는 예측을수행하는 통계분석 기법

-. 각 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류예측 모델

-. 의사결정트리는 분류와 회귀 모두 가능

구분 특징 설명
장점 결과해석용이 직관적인 해석 가능
주요 변수의 분리기준 제시
비모수적 모델 통계 모델에 요구되는 가정에 자유로움(예: 정규성 독립성, 등분산성)
변수간 상호작용 변수간의 상호작용을 고려하며 선형, 비선형 관계 탐색 가능
단점 비안정성 데이터 수가 적을 경우 특히 불안정
과대적합 발생률 높음(가지치기 필요)
선형성 미흡 전체적인 선형관계 파악 미흡
비연속성 분리 시 연속형 변수를 구간화 처리(비연속화)
분리 경계점 근처에 오류발생가능

 

II. 의사결정트리 형성과정

처리절차 핵심요소 설명
기준설정 분리기준(split criterion), 정지규칙 지정
  • 분석 목적과 자료구조에 따라 적절히 분리
Recursie Partitioning 지니계수, 엔트로피 계산
  • 지니계수, 엔트로피 계산을 통한 purity check을 수행하며, 반복적인 partitioning 수행
가지치기 부적절 규칙의 가지 제거
  • 하위 속성에 대한 가지치기 수행
  • 분류오류 위험이 높거나 부적절한 규칙의 가지 제거
타당성 평가 Cross Validation
  • 이익도표, 위험도표, validation set 이용한 평가
해석 및 예측 모형 결정
  • 의사결정 나무의 해석, 분류, 예측 모형 설정

Split 수가 증가할 수록 training set의 에러율은 감소하지만 validation set은 특정 지점부터 에러율이 증가하므로, 해당 지점에서 split수를 결정해야함

 

 

III. 의사결정트리 사용 알고리즘

알고리즘 설명 분류나무 회귀나무
CART
(Classification And Regression Tree)
  • 데이터 누락이나 필드 수가 많은 경우
  • 다중 분리 대비 정확도는 떨어짐
  • 이지 분리라 분류가 간단하여 해석 편함
O O
CHAID
(CHi-squared Automatic Interaction Detection)
  • 비이분형 트리로 광범위한 트리 작성
  • 복잡한 모형 생성으로 과적합 문제가 적고 정확도가 높음
O O
C5.0
  • 데이터 누락이나 필드 수가 많은 경우
  • 정확도가 높은 알고리즘이나 과접학
O X

 

의사결정트리는 결정경계가 데이터 축에 수직이어서 특정 데이터에만 잘 작동할 가능성이 높아 이같은 문제를 극복하기 위해 등장한 모델이 랜덤포레스트임

랜덤포레스트는 같은 데이터에 의해 의사결정트리를 여러 개 만들어 그 결과를 종합해 예측 성능을 높이는 방법

엔트로피지수:불순도를 측정하는 지표로서 정보량(데이터가 섞여 있는 정도)의 (항아리에서 뽑을 공) 기대값

지니계수: 불순도를 측정하는 지표로서 데이터의 통계적 분산정도를 정량화애서 표현한 값

'6. 최신기술, 법규 및 정책 > 인공지능' 카테고리의 다른 글

K means 알고리즘  (1) 2022.11.03
교차검증(Cross Validation)  (0) 2022.11.02
중심성 평가  (0) 2022.11.01
신경망(Neural Network) 분석  (0) 2022.07.13