머리말
제1장 Data Lake 개요
1. Data Lake의 등장 배경
2. Data Lake의 중요성
3. Data Lake의 개념
4. Data Lake 구성요소
제2장 Data Lake 참조 아키텍처
1. 빅데이터 참조 아키텍처
1-1. 람다 아키텍처
1-2. 카파 아키텍처
1-3. 참조 아키텍처 간 비교
2. 빅데이터 솔루션 아키텍처
2-1. Cloudera Hadoop
2-2. Cloudera Data Platform
2-3. AWS Data Lake
2-4. Azure Data Lake
2-5. 솔루션 아키텍처 간 비교
제3장 Data Lake 아키텍처 설계
1. 아키텍처 설계 기본 원칙
2. 아키텍처 설계 방향
2-1. 단기 아키텍처
2-2. 장기 아키텍처
2-3. 설계 시 주요 의사결정 사항
3. 구성요소별 아키텍처 설계
3-1. 데이터 수집 Layer
3-2. 데이터 적재 Layer
3-3. 데이터 처리 Layer
3-4. 데이터 제공 Layer
3-5. 사용자 Self-Service Layer
3-6. 데이터 거버넌스 Layer
맺음말
참고자료
색인
이 책은 저자의 Data Lake 시리즈의 세 번째 책으로, Data Lake 플랫폼의 청사진(Blueprint을 설계하기 위한 실무자들을 위한 책이다.
첫 번째 책인 《차세대 빅데이터 플랫폼 Data Lake》는 Data Lake 플랫폼의 전반적인 개요를 다루었고, Data Lake가 무엇이고, 무엇을 목적으로 하는지를 알려 준다. 두 번째 책인 《Data Catalog 만들기》는 Data Lake 플랫폼의 핵심 서비스라고 할 수 있는 Data Catalog 서비스를 소개하고, 이를 어떻게 설계하고 구축해야 하는지에 대한 방법론과 예시를 중심으로 기술하였다. 세 번째 책인 이 책에서는 Data Lake의 전체 플랫폼을 어떻게 설계할지에 대한 내용을 기술하였다.
Data Catalog는 ‘사용자 Self-Service Layer’의 하나의 구성요소에 불과하지만, Data Lake 플랫폼은 많은 구성요소와 기술요소를 포함하고 있는 복잡한 시스템이다. Data Lake 아키텍트는 이러한 많은 구성요소를 정의하고 기술을 검토하고 아키텍처를 설계해야 한다.
하지만 이들 아키텍트가 참고할 수 있는 자료는 사실상 해외 자료 몇 권과 이를 번역한 자료 정도이며, 이 자료들은 ‘람다 아키텍처’를 기반으로 한 아주 대략적인 구현 모습만을 제공하고 있다. Data Lake 설계를 위한 참고 자료가 부족한 상황에서, 저자의 지난 3년간의 Data Lake 프로젝트 수행과 리서치 경험을 바탕으로 좀 더 종합적인 관점에서 설계를 위한 기초 자료를 제공한다.