3. 자료처리/빅데이터분석 5

데이터마이닝 알고리즘

I. 데이터마이닝 알고리즘 -. 대규모로 저장된 데이터 안에서 숨겨져 있는 가치있는 정보를 추출하는 절차 및 방법 II. 데이터 마이닝 기능과 알고리즘 종류 기능 알고리즘 설명 연관분석 (association) Apriori 알고리즘 아이템의 출현 빈도를 기반으로 각 데이터 간의 연관관계를 탐색 분류 (classification) K-NN (k-nearest neighbor) 특징 공간 내 K개의 가장 가까운 데이터의 값으로 구분 의사결정 트리 (Decision Tree) 특정 기준에 따라 데이터를 구분하는 모델 Random Forest 작은 의사결정 트리들의 합 SVM (Support Vector Machine) 데이터를 최소 마진으로 두 클래스로 분류하는 초평면을 찾는 알고리즘 군집분석 (cluste..

하둡(Hadoop) 에코 시스템

I. 하둡 에코 시스템 -. 빅데이터를 위한 핵심기술인 하둡의 활용성을 높이기위해 기본 코어 시스템인 HDFS(분산저장)과 MapReduce(분산처리)에 다양한 서브 시스템을 추가하여 구성한 빅데이터 수집, 저장, 처리, 분석 시스템 -. 여러 컴퓨터로 구성된 클러스터를 이용하여 방대한 양의 데이터를 처리하는 분산 처리 프레임워크 -. 구글의 맵리듀스 인프라스트럭쳐에 대한 논문이 발표된 후 이의 복제품으로 오픈소스 프로젝트가 됨 -. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템과 맵리듀스를 구현한 것 -특징: scale out, 노드 변경 용이, 높은 가용성, SPOF 구조 특징 내용 scale-out 장비가 추가될 때마다 전체 가용량(capacity) 및 성능이 거의 선..

마이데이터

I. 마이데이터 -. 정보주체인 개인이 데이터 주권에 따라 본인의 정보를 적극적으로 관리, 통제하고 이를 신용관리, 자신관리, 나아가 건강관리까지 개인생활에 능동적으로 활용하는 일련의 과정 또는 서비스 -. 개인이 정보 관리의 주체가 되어 능동적으로 본인의 정보를 관리하고, 본인의 의사에 따라 신용, 자산관리 등에 정보를 활용하는 데이터 -. 정보 주체의 자기 결정권 행사 제도로 여러 기관에 흩어져 있는 개인의 정보를 정보 주체가 주도적으로 활용하는 체계 -. 데이터 활용을 통한 가치 창출에 주목하여 나타난 개념으로, 데이터의 ㅈ체가 데이터 제공 및 활용에 대한 능동적인 자기 결정권을 갖는데 의의가 있음 -특징: 연계서비스 제공, 자생적 시장형성, 적극적인 데이터 활용 특징 설명 연계 서비스 제공 본인정..

OLAP(Online Analytical Processing)

I. OLAP 개요 -. 사용자가 대규모 데이터에 접근하여 대화식으로 원하는 다차원의 정보를 분석하고 의사 결정에 활용할 수 있는 실시간 분석처리 기능 -특징: 다차원성, 사용자 접근, 대화식 분석, 의사결정 활용 II. OLAP 분석 방법 가. OLAP 분석 방법 종류 drill down, roll up(drill up), pivot/ratating, slicing, Dice, drill across, drill through 나. OLAP 분석방법 drill down: 요약 데이터에서 상세 데이터로 접근하는 기능 예 1사분기 -> 1월, 2월, 3월 roll up(drill up): 상세 데이터에서 요약 데이터로 접근하는 기능 예 la, 뉴욕, 서울, 부산 -> 미국, 한국 pivot/ratating..

Data Mining

I. 합리적 의사결정을 위한 가치정보 추출, Data Mining의 개요 가. Data Mining의 정의 - 대량의 데이터에 고급 통계 분석과 모델링 기법을 적용하여 데이터 간의 패턴과 관계를 도출, 의사결정에 활용할 수 있는 의미 있는 정보를 발견하는 과정 II. Data Mining 모델링 유형 및 Data Mining 적용 기술 가. Data Mining 모델링 유형 나 Data Mining 적용 기술 분류 기법 설명 탐색적 모델 연관성 규칙 - 여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관 관계를 발견 [사례] - 넥타이를 구매하는 고객이 셔츠를 50%이상 구매하고, 정장과 벨트를 구매하는 고객은 코트를 구매할 확률이 40% 이상 - 교차판매, 묶음판매, 상품의 진열, 쿠폰 배부 ..