3. 자료처리 26

메타데이타, 데이터웹하우스

메타데이터는 “기업에 의해 활용되는 기술적 절차와 데이터에 관한 모든 물리적 데이터와 지식을 포함하는 정보” 데이터의 저장소인 데이터베이스에서 데이터 사전과 데이터의 구조 및 의미, 데이터를 조작하는 적용업무 및 처리절차에 대한 설명형 정보로 사용하는 것 정보시스템 환경에 대하여 각 구성 요소들간의 관계에서부터 비즈니스와 기술적인 구조에 이르기까지 정의하고 설명하는 데이터 데이터웹하우스로의 발전단계 발 전 단 계 기 반 구 조 특 성 OLTP, EIS/DSS 메인 프레임 클라이언트/서버 실시간 운영 시스템 데이터웨어하우스 클라이언트/서버 데이터 분석에 기초하여 의사 결정자에게 정보 제공 데이터웹하우스 인터넷 정보의 분산 정보 소스의 통합 타데이터를 관리 기능에 따라 구분 데이터 표준을 입력하고 지원하는 ..

데이터마이닝 알고리즘

I. 데이터마이닝 알고리즘 -. 대규모로 저장된 데이터 안에서 숨겨져 있는 가치있는 정보를 추출하는 절차 및 방법 II. 데이터 마이닝 기능과 알고리즘 종류 기능 알고리즘 설명 연관분석 (association) Apriori 알고리즘 아이템의 출현 빈도를 기반으로 각 데이터 간의 연관관계를 탐색 분류 (classification) K-NN (k-nearest neighbor) 특징 공간 내 K개의 가장 가까운 데이터의 값으로 구분 의사결정 트리 (Decision Tree) 특정 기준에 따라 데이터를 구분하는 모델 Random Forest 작은 의사결정 트리들의 합 SVM (Support Vector Machine) 데이터를 최소 마진으로 두 클래스로 분류하는 초평면을 찾는 알고리즘 군집분석 (cluste..

하둡(Hadoop) 에코 시스템

I. 하둡 에코 시스템 -. 빅데이터를 위한 핵심기술인 하둡의 활용성을 높이기위해 기본 코어 시스템인 HDFS(분산저장)과 MapReduce(분산처리)에 다양한 서브 시스템을 추가하여 구성한 빅데이터 수집, 저장, 처리, 분석 시스템 -. 여러 컴퓨터로 구성된 클러스터를 이용하여 방대한 양의 데이터를 처리하는 분산 처리 프레임워크 -. 구글의 맵리듀스 인프라스트럭쳐에 대한 논문이 발표된 후 이의 복제품으로 오픈소스 프로젝트가 됨 -. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템과 맵리듀스를 구현한 것 -특징: scale out, 노드 변경 용이, 높은 가용성, SPOF 구조 특징 내용 scale-out 장비가 추가될 때마다 전체 가용량(capacity) 및 성능이 거의 선..

마이데이터

I. 마이데이터 -. 정보주체인 개인이 데이터 주권에 따라 본인의 정보를 적극적으로 관리, 통제하고 이를 신용관리, 자신관리, 나아가 건강관리까지 개인생활에 능동적으로 활용하는 일련의 과정 또는 서비스 -. 개인이 정보 관리의 주체가 되어 능동적으로 본인의 정보를 관리하고, 본인의 의사에 따라 신용, 자산관리 등에 정보를 활용하는 데이터 -. 정보 주체의 자기 결정권 행사 제도로 여러 기관에 흩어져 있는 개인의 정보를 정보 주체가 주도적으로 활용하는 체계 -. 데이터 활용을 통한 가치 창출에 주목하여 나타난 개념으로, 데이터의 ㅈ체가 데이터 제공 및 활용에 대한 능동적인 자기 결정권을 갖는데 의의가 있음 -특징: 연계서비스 제공, 자생적 시장형성, 적극적인 데이터 활용 특징 설명 연계 서비스 제공 본인정..

NoSQL

I. NoSQL -. 기존의 관계형 데이터가 아닌 다양한 데이터 형태를 효율적으로 처리할 수 있는 유연성을 갖춘 분산 데이터베이스 관리 시스템 -. 관계형 데이터베이스의 한계를 극복하기 위한 데이터 저장소의 새로운 형태로 수평적 확장이 용이하고, 고정된 스키마를 가지지 않은 DBMS -. 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정 Table Schema 가 필요하지 않고 Join 연산을 사용할 수 없으며, 수평적으로 확정가능한 DBMS -. NoSQL 특징: 스키마가 없으며 관계가 없음 구분 특징 설명 핵심특징 (BASE) Basically Available - 언제든지 데이터는 접근할 수 있어야 하는 속성 - 분산 시스템이기 때문에 항상 가용성을 중시함 Soft-St..

데이터 중복제거(Data De-duplication(

I. 데이터중복제거(Data De-duplication) -. 두개 이상의 중복 데이터가 있으면 하나만 저장하고 나머지는 포인터로 대체하여 중복되는 부분을 제거하는 기술 -. 데이터의 세그먼트를 분할, 중복된 영역을 제거하여 유일한 고유블록을 단 한번만 저장하는 백업기술 -. 특징: data 무결성 해소, data 복제시 중복 문제 해소 II. 데이터 중복제거 동작 메커니즘과 기술요소 가. 데이터 중복제거 동작 메커니즘 나. 데이터 중복 제거 기술요소 기술요소 설명 fingerprint 유일성, 진본성 여부 확인 해시 알고리즘 SHA-1, MD5 통한 비트레벨 비교 Fiber Channel Giga Bit 데이터 전송, SAN 구성 데이터 압축 엔트로피 무손실 압축 적용 메타 데이터 중복확인 Reposi..

분산 데이터베이스

I. 분산 데이터베이스 -. 논리적으로 하나의 시스템으로 구현되어 있으나, 물리적으로 네트워크를 통하여 분산화된 형태로 관리되는 데이터 베이스 -. 네트워크를 통해 물리적으로 분산되어 존재하지만, 하나의 논리적인 통합구조로 관리되는 데이터베이스 -. 분산 데이터베이스의 특징 특성 주요개념 분할 투명성 - 사용자가 하나의 논리적 릴레이션이 여러 단편으로 분할되어 각 단편의 사본이 여러 Site에 저장되어 있음을 알 필요가 없는 성질 - 성능향상, Fragmentation을 위한 설계 필요 위치 투명성 - 사용자나 응용프로그램이 접근할 데이터의 물리적 위치를 알아야 할 필요가 없는 성질 - 이를 보장하기 위해 DBMS는 Distributed Data Dictionary Directory가 필요 복제 무관성 ..

데이터베이스 성능개선

I. 데이터베이스 성능개선 -. 파라미터, sql, 데이터 모델의 조정을 통하여 데이터베이스 성능을 향상시키는 성능 최적화 기술 -. 데이터 베이스의 조정을 통하여 최적의 성능을 얻을 수 있도록 개선하는 작업 II. DB의 성능개선을 위한 주요 항목 주요요소 설 명 사 례 설계관점 (모델링관점) - 데이터 모델링, 인덱스 설계 - 데이터파일, 테이블 스페이스 설계 - 데이터베이스 용량 산정 - 반정규화 - 분산파일 배치 DBMS관점 - CPU, 메모리 I/O에 관한 관점 - Buffer, Cache크기 SQL관점 - join, Indexing, SQL Execution Plan - Hash / Join H/W관점 -CPU, Memory, Network, Disk -System Resource개선 III...

마스터 데이터 관리

I. 마스터 데이터 -. 기업운영의 근간이 되는 중요한 기업의 고객, 공급자, 품목, 자산 등의 기준 정보 관리 시스템 -역할: 데이터통합, 품질 유지, 협업 지원 II. MDM의 구성 및 구성요소 가. MDM의 구성 나. MDM의 구성요소 구성요소 내용 비고 Repository -조직내 흩어져 있는 기준 정보를 모아 놓고, 서로 공유할 수 있게 한 정보의 저장소 DB2, Oracle등 데이터 체계관리 -기준 정보의 속성/코드/분류에 대한 체계 및 변경이력을 관리 표준 정의 프로세스 관리 -기준정보 접근 및 권한에 대한 프로세스 관리 표준 프로세스, Workflow EAI -MDM과 Legacy의 이기종간의 필요한 정보를 서로 소통하여 관리 효율성을 증대 미들웨어, 아답터 Legacy -실제 업무가 이루..

데이터 거버넌스

I. 데이터 거버넌스 -. 전사의 데이터 정책, 지침, 표준, 전략, 방향 등에 근거하여 기업의 목표달성을 위해 데이터에 대한 의사결정을 지원하는 체계 -. 목적 : 기업의 다양한 가치 창출 기여, 기업에 제공하는 정보 활용 극대화, 고품질 데이터의 확보와 관리 -. 데이터 거버넌스 필요성: 데이터 명확성, 일관성 확보 데이터 설계정보 현행화 유지 데이터 간 연관관계 분석 데이터 흐름 정보 파악 데이터 오류 검증 II. 데이터 거버넌스 구성 및 구성요소 가. 데이터 거버넌스 구성 정책 조직 프로세스 큐빅으로 입체적으로 그린다 나. 데이터 거버넌스 구성요소 구분 구성요소 설명 데이터 관리체계 원칙(Principle) 데이터를 유지 관리하기 위한 지침 절차(Process) 조직이 데이터를 관리하기 위해 수행..