CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유
1.1 데이터 품질이란?
1.2 데이터 품질의 현재
1.3 마치며
CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
2.1 운영 데이터와 분석 데이터의 차이
2.2 차이는 어떻게 만들어지는가?
2.3 데이터 웨어하우스 vs 데이터 레이크
2.4 데이터 품질 지표 수집
2.5 데이터 카탈로그 설계
2.6 데이터 카탈로그 구축
2.7 마치며
CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트
3.1 데이터 수집
3.2 데이터 정제
3.3 배치 처리 vs 실시간 처리
3.4 실시간 처리를 위한 데이터 품질
3.5 데이터 정규화
3.6 분석 데이터 변환 실행
3.7 테스트 및 경고 알람 시스템
3.8 아파치 에어플로를 활용한 데이터 품질 관리
3.9 마치며
CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지
4.1 알려진 미지와 알려지지 않은 미지
4.2 이상 탐지 알고리즘 구축
4.3 스키마 및 계보를 위한 모니터 구축
4.4 파이썬과 머신러닝으로 이상 탐지 확장
4.5 이상 탐지의 심화 과정: 기타 유용한 접근법
4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크
4.7 마치며
CHAPTER 5 데이터 신뢰성을 위한 아키텍처
5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지
5.2 파이프라인에서 높은 데이터 품질 측정 및 유지
5.3 데이터 품질 다운스트림
5.4 데이터 플랫폼 구축
5.5 데이터 신뢰 구축
5.6 [사례 연구] 블링키스트
5.7 마치며
CHAPTER 6 대규모 데이터 품질 문제 해결
6.1 소프트웨어 개발 시 품질 문제 조정
6.2 데이터 사고 관리
6.3 사고 대응 및 완화
6.4 [사례 연구] 페이저듀티의 데이터 사고 관리
6.5 마치며
CHAPTER 7 엔드 투 엔드 데이터 계보 구축
7.1 최신 데이터 시스템을 위한
[이 책의 핵심 내용]
- 바로 지금, 데이터 품질에 주목해야 하는 이유
- 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법
- 데이터 품질 신뢰성을 높이는 방법과 실제 사례
- 데이터 품질을 향상시키는 거버넌스와 실제 사례
- 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개
- 데이터 품질의 미래 트렌드 4가지
[이 책의 대상 독자]
- 데이터 엔지니어
- 기업의 데이터 파이프라인을 구축하고, 확장하고, 관리하는 실무자
- 데이터로 서비스를 만드는 데이터 프로덕트 매니저
- 데이터 품질에 투자하려는 의지가 있는 COO
- 데이터 품질을 중시하는 데이터 분석가
- 데이터 품질을 중시하는 데이터 과학자
[이 책의 구성]
1장: 지금 데이터 품질에 주목해야 하는 이유
현재 시점에서 데이터 품질에 주목해야 하는 이유를 살펴보고 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명한다. 이와 관련하여 ‘데이터 다운타임’이라는 개념을 소개하고, 사이트 신뢰성 엔지니어링(SRE 팀의 초창기로 거슬러 올라가, 동일한 데브옵스(DevOps 원칙을 어떻게 데이터 엔지니어링 워크플로에도 적용할 수 있는지 설명한다.
2장: 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인 기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 살펴본다. 이를 통해 탄력적인 데이터 시스템을 구축하는 방법에 대해 설명한다. 여기서 소개하는 세 가지 기본 기술은 양질의 데이터 프로덕션을 위한 사전 준비에 사용되며, 데이터를 저장·처리·추적한다.
3장: 데이터 수집 · 정제 · 변환 · 테스트
데이터 품질과 신뢰성을 염두에 두고 데이터를 수집·정제·변환·테스트하는 방법을 설명한다. 이를 통해 데이터가 파이프라인에 있기 전과 파이프라인에 있는