I. 데이터중복제거(Data De-duplication)
-. 두개 이상의 중복 데이터가 있으면 하나만 저장하고 나머지는 포인터로 대체하여 중복되는 부분을 제거하는 기술
-. 데이터의 세그먼트를 분할, 중복된 영역을 제거하여 유일한 고유블록을 단 한번만 저장하는 백업기술
-. 특징: data 무결성 해소, data 복제시 중복 문제 해소
II. 데이터 중복제거 동작 메커니즘과 기술요소
가. 데이터 중복제거 동작 메커니즘
나. 데이터 중복 제거 기술요소
기술요소 | 설명 |
fingerprint | 유일성, 진본성 여부 확인 |
해시 알고리즘 | SHA-1, MD5 통한 비트레벨 비교 |
Fiber Channel | Giga Bit 데이터 전송, SAN 구성 |
데이터 압축 | 엔트로피 무손실 압축 적용 |
메타 데이터 | 중복확인 Repository 구성, Chunk별 indexing |
III. 중복 제거 기술
가. 고정 블록 중복제거
- 8KB 고정 블록 중복 제거 알고리즘을 사용하는 경우, 첫 8K 파일 세그먼트를 대상으로 공통 데이터를 조사
- 이후 2번째 8K, 3번째 8K식으로 전체 파일 처리
- 고정 블록 중복 제거는 빠르고, 효율적이며, CPU와 메모리에 도움을 준다는 장점이 있음
나. 가변 블록 중복제거
- 데이터를 길이가 다른 세그먼트로 평가하는 방법
- 여러 해시를 계산, 각 세그먼트의 종료 및 자연적인 경계점을 판단하기 때문에 더 많은 CPU와 메모리 리소스가 필요
- 세그먼트를 파악하고 나면, 해시를 중복 제거 사전과 비교해 고유 여부 판단
'3. 자료처리 > 데이터모델링' 카테고리의 다른 글
메타데이타, 데이터웹하우스 (0) | 2022.11.02 |
---|---|
NoSQL (0) | 2022.10.26 |
분산 데이터베이스 (0) | 2022.10.26 |
데이터베이스 성능개선 (0) | 2022.10.26 |
마스터 데이터 관리 (0) | 2022.10.26 |