전체 글 122

시계열 분석(Time Series Analysis)

I. 미래예측 기법 시계열 분석 개요 -. 시간의 흐름에 따른 데이터의 변화추이 또는 패턴을 찾아 미래를 예측하는 분석기법 -. 시계열 자료들 간의 계열 상관을 이용하여 동태적인 관계를 분석하는 기법 -. 자료간의 인과관계나 시차분포형태에 대한 사전적인 제약이 최소화된 모형을 추정해서 데이터의 의미를 도출하는 방법 -. 시계열 분석 자료의 경우, 오랫동안의 변동을 통해 일정한 추세를 가지게 되면, 그것을 통해서 미래에 어떠한 현상이 발생될지를 예측하는 것이며, 과거를 통해서 미래의 지속성을 확인하는 과정 시계열 데이터의 인과관계에 근거한 모델 생성을 위한 탐색적 목적과 미래값 예측을 위한 예측적 목적으로 구분됨 일반적으로 예측을 위해 시계열 데이터 분석을 주로 사용 II. 시계열 분석 원리 가. 정상성 ..

의사결정트리

I. 데이터 분류 예측 기법, 의사결정트리 -. 의사결정 규칙 과정을 트리 구조로 단계별 도표화하여 분류 또는 예측을수행하는 통계분석 기법 -. 각 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류예측 모델 -. 의사결정트리는 분류와 회귀 모두 가능 구분 특징 설명 장점 결과해석용이 직관적인 해석 가능 주요 변수의 분리기준 제시 비모수적 모델 통계 모델에 요구되는 가정에 자유로움(예: 정규성 독립성, 등분산성) 변수간 상호작용 변수간의 상호작용을 고려하며 선형, 비선형 관계 탐색 가능 단점 비안정성 데이터 수가 적을 경우 특히 불안정 과대적합 발생률 높음(가지치기 필요) 선형성 미흡 전체적인 선형관계 파악 미흡 비연속성 분리 시 연속형 변수를 구..

K means 알고리즘

I. K-Means 알고리즘 -. 입력값으로 k를 취하고 군집 내 유사성은 높게, 군집간 유사성은 낮게 되도록 n개의 객체집합을 k개의 군집으로 군집하는 기법 -. 주어진 데이터를 사전에 정의된 k개의 클러스터로 묶는 알고리즘 -. 각 개체의 동질성을 거리를 이용해 측정하여 동질성이 높은 (서로 비슷한) 대상 군집을 판별하고 군집에 속한 개체들의 동질성과 서로 다른 군집에 속한 개체 간의 이질성을 규명하는 분석 방법 -. 중심값을 선정하고 중심값과 다른 데이터 간의 거리를 이용하여 분류를 수행하는 버지도 학습 -. 군집 별 중심값에서 중심과의 거리를 기반으로 데이터를 분류하는 비계층적 군집 기법의 종류 -. 특징: Data 중심, 거리기반의 분류법, 데이터군 양자화, 속도 및 구현 특징 설명 Data중심..

SVM(Support Vector Machine)

I. 하나의 집단을 둘로 나누기 SVM 개요 -. 학습 데이터를 두개의 클래스로 나누는데 margin을 최대로 하는 결정직선을 찾는 분류 알고리즘 -. 데이터가 사상된 공간에서 경계선과 가장 근접한 데이터 간의 거리가 가장 큰 경계를 식별하는 지도학습 기반 분류 알고리즘 -. 두 범주를 갖는 데이터를 가능한 멀리 두개의 집단으로 분리하는 분류방법 -. 특징: 지도학습, 분류기법, 회귀분석 활용, 차원의 저주 회피 II. SVM 개념도 및 구성요소 가. SVM 개념도 나. SVM 구성요소 구분 설명 support vector 클래스를 나누는 결정직선에서 가장 근거리에 위치하는 벡터 학습 데이터 중에서 분류 경계에 가장 가까운 곳에 위치한 데이터 margin A Class의 Support Vector와 B ..

SVM(Support Vector Machine)

I. 하나의 집단을 둘로 나누기 SVM 개요 -. 학습 데이터를 두개의 클래스로 나누는데 margin을 최대로 하는 결정직선을 찾는 분류 알고리즘 -. 데이터가 사상된 공간에서 경계선과 가장 근접한 데이터 간의 거리가 가장 큰 경계를 식별하는 지도학습 기반 분류 알고리즘 -. 두 범주를 갖는 데이터를 가능한 멀리 두개의 집단으로 분리하는 분류방법 -. 특징: 지도학습, 분류기법, 회귀분석 활용, 차원의 저주 회피 II. SVM 개념도 및 구성요소 가. SVM 개념도 나. SVM 구성요소 구분 설명 support vector 클래스를 나누는 결정직선에서 가장 근거리에 위치하는 벡터 학습 데이터 중에서 분류 경계에 가장 가까운 곳에 위치한 데이터 margin A Class의 Support Vector와 B ..

메타데이타, 데이터웹하우스

메타데이터는 “기업에 의해 활용되는 기술적 절차와 데이터에 관한 모든 물리적 데이터와 지식을 포함하는 정보” 데이터의 저장소인 데이터베이스에서 데이터 사전과 데이터의 구조 및 의미, 데이터를 조작하는 적용업무 및 처리절차에 대한 설명형 정보로 사용하는 것 정보시스템 환경에 대하여 각 구성 요소들간의 관계에서부터 비즈니스와 기술적인 구조에 이르기까지 정의하고 설명하는 데이터 데이터웹하우스로의 발전단계 발 전 단 계 기 반 구 조 특 성 OLTP, EIS/DSS 메인 프레임 클라이언트/서버 실시간 운영 시스템 데이터웨어하우스 클라이언트/서버 데이터 분석에 기초하여 의사 결정자에게 정보 제공 데이터웹하우스 인터넷 정보의 분산 정보 소스의 통합 타데이터를 관리 기능에 따라 구분 데이터 표준을 입력하고 지원하는 ..

데이터마이닝 알고리즘

I. 데이터마이닝 알고리즘 -. 대규모로 저장된 데이터 안에서 숨겨져 있는 가치있는 정보를 추출하는 절차 및 방법 II. 데이터 마이닝 기능과 알고리즘 종류 기능 알고리즘 설명 연관분석 (association) Apriori 알고리즘 아이템의 출현 빈도를 기반으로 각 데이터 간의 연관관계를 탐색 분류 (classification) K-NN (k-nearest neighbor) 특징 공간 내 K개의 가장 가까운 데이터의 값으로 구분 의사결정 트리 (Decision Tree) 특정 기준에 따라 데이터를 구분하는 모델 Random Forest 작은 의사결정 트리들의 합 SVM (Support Vector Machine) 데이터를 최소 마진으로 두 클래스로 분류하는 초평면을 찾는 알고리즘 군집분석 (cluste..

교차검증(Cross Validation)

I. 교차검증(Cross Validation) -. 머신러닝/딥러닝 평가에 필수적으로 사용되는 방법으로 데이터를 통한 모델을 설계한 후 모델을 검증하는 단계 -. 모델을 추정하는데 사용되지 않았던 새로운 데이터를 예측하는 일반화 능력을 테스트하는 방법 II. 교차검증 절차 및 알고리즘 가. 교차검증 절차 -교차검증은 성능 효율성으로 데이터마이닝, 기계학습 등 통계적 모델 평가 기법으로 널리 사용됨 나. 교차 검증 기본 알고리즘 Hold Out Method: Training Set으로 훈련하고 빼놓았던 Validation Set으로 검증하는 기본 기법 Sebset을 Resampling하는 방법에 따라 다양한 기법이 존재함 III. 교차검증 대표적 기법 분류 기법 설명 Exhaustive CV Leave-p..

중심성 평가

I. 중심성 평가 -. 네트워크 노드들 간 연계된 빈도와 거리를 측정하여 해당 노드가 네트워크 중심에 위치하는 정도를 표현한 지표 -. 그래프 이론 기반 네트워크 중심은 그래프, 꼭지점 혹은 노트의 상대적 중요성을 나타내는 척도 - 네트워크 중심성 분석의 의미 구분 의미 설명 중심성 자체적 의미 정보 획득의 거점 정보 획득과 자원 흐름에서 빠른 시간에 필요한 양을 확보할 가능성이 높다는 것을 의미 위치적 중요성 정보와 자원에 대한 속도와 양의 측면에서 유리한 위치에 있음을 의미 접촉 기회 확대 정보와 자원에 대한 접촉 가능성이 높으므로 기회가 확대됨 중심성 유형별 의미 연결성 네트워크에서 노드들과 직접 연결되어 있는 링크의 수를 의미 매개성 네트워크에서 노드간의 중개인 역할 또는 문지기와 같이 어떤 경로..

하둡(Hadoop) 에코 시스템

I. 하둡 에코 시스템 -. 빅데이터를 위한 핵심기술인 하둡의 활용성을 높이기위해 기본 코어 시스템인 HDFS(분산저장)과 MapReduce(분산처리)에 다양한 서브 시스템을 추가하여 구성한 빅데이터 수집, 저장, 처리, 분석 시스템 -. 여러 컴퓨터로 구성된 클러스터를 이용하여 방대한 양의 데이터를 처리하는 분산 처리 프레임워크 -. 구글의 맵리듀스 인프라스트럭쳐에 대한 논문이 발표된 후 이의 복제품으로 오픈소스 프로젝트가 됨 -. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템과 맵리듀스를 구현한 것 -특징: scale out, 노드 변경 용이, 높은 가용성, SPOF 구조 특징 내용 scale-out 장비가 추가될 때마다 전체 가용량(capacity) 및 성능이 거의 선..