3. 자료처리/데이터모델링

데이터 중복제거(Data De-duplication(

SWExpert 2022. 10. 26. 20:51

I. 데이터중복제거(Data De-duplication)

-. 두개 이상의 중복 데이터가 있으면 하나만 저장하고 나머지는 포인터로 대체하여 중복되는 부분을 제거하는 기술

-. 데이터의 세그먼트를 분할, 중복된 영역을 제거하여 유일한 고유블록을 단 한번만 저장하는 백업기술

-. 특징: data 무결성 해소, data 복제시 중복 문제 해소

II. 데이터 중복제거 동작 메커니즘과 기술요소

가. 데이터 중복제거 동작 메커니즘

나. 데이터 중복 제거 기술요소

기술요소 설명
fingerprint 유일성, 진본성 여부 확인
해시 알고리즘 SHA-1, MD5 통한 비트레벨 비교
Fiber Channel Giga Bit 데이터 전송, SAN 구성
데이터 압축 엔트로피 무손실 압축 적용
메타 데이터 중복확인 Repository 구성, Chunk별 indexing

 

III. 중복 제거 기술

가. 고정 블록 중복제거

  • 8KB 고정 블록 중복 제거 알고리즘을 사용하는 경우, 첫 8K 파일 세그먼트를 대상으로 공통 데이터를 조사
  • 이후 2번째 8K, 3번째 8K식으로 전체 파일 처리
  • 고정 블록 중복 제거는 빠르고, 효율적이며, CPU와 메모리에 도움을 준다는 장점이 있음

나. 가변 블록 중복제거

  • 데이터를 길이가 다른 세그먼트로 평가하는 방법
  • 여러 해시를 계산, 각 세그먼트의 종료 및 자연적인 경계점을 판단하기 때문에 더 많은 CPU와 메모리 리소스가 필요
  • 세그먼트를 파악하고 나면, 해시를 중복 제거 사전과 비교해 고유 여부 판단

'3. 자료처리 > 데이터모델링' 카테고리의 다른 글

메타데이타, 데이터웹하우스  (0) 2022.11.02
NoSQL  (0) 2022.10.26
분산 데이터베이스  (0) 2022.10.26
데이터베이스 성능개선  (0) 2022.10.26
마스터 데이터 관리  (0) 2022.10.26