1장. 데이터 플랫폼 소개
1.1 데이터 웨어하우스에서 데이터 플랫폼으로의 이동과 관련된 동향들
1.2 데이터의 속도, 규모, 다양성이 증가하는 상황에서 데이터 웨어하우스의 한계
1.2.1 데이터의 다양성
1.2.2 데이터 규모
1.2.3 데이터 속도
1.2.4 세 가지 V
1.3 데이터 레이크가 대안이 될 수 있을까?
1.4 퍼블릭 클라우드 활용
1.5 클라우드, 데이터 레이크, 데이터 웨어하우스: 클라우드 데이터 플랫폼의 등장
1.6 클라우드 데이터 플랫폼의 빌딩 블록(building block
1.6.1 수집 계층
1.6.2 스토리지 계층
1.6.3 처리 계층
1.6.4 서비스 계층
1.7 클라우드 데이터 플랫폼이 세 가지 V를 다루는 방법
1.7.1 데이터의 다양성
1.7.2 데이터 규모
1.7.3 데이터 속도
1.7.4 추가 V 두 가지
1.8 공통 유스 케이스
요약
2장. 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유
2.1 클라우드 데이터 플랫폼과 클라우드 데이터 웨어하우스: 실용적 측면
2.1.1 데이터 소스 자세히 살펴보기
2.1.2 클라우드 데이터 웨어하우스만 활용한 사례
2.1.3 클라우드 데이터 플랫폼 아키텍처 사례
2.2 데이터 수집
2.2.1 애저 시냅스로 직접 데이터 수집
2.2.2 애저 데이터 플랫폼으로 데이터 수집
2.2.3 업스트림 데이터 소스의 변경 관리
2.3 데이터 처리
2.3.1 웨어하우스에서 데이터 처리
2.3.2 데이터 플랫폼에서 데이터 처리
2.4 데이터 액세스
2.5 클라우드 비용 고려사항
요약
2.6 연습문제 정답
3장. 빅 3의 활용과 확대: 아마존, 마이크로소프트 애저, 구글
3.1 클라우드 데이터 플랫폼 계층 아키텍처
3.1.1 데이터 수집 계층
3.1.2 고속 스토리지와 저속 스토리지
3.1.3 처리 계층
3.1.4 기술 메타데이터 계층(Technical metadata layer
3.1.5 서비스 계층과 데이터 소비자
○다닐 즈부리브스키(지은이의 말
이 책은 데이터, 신기술, 고객의 문제 해결을 좋아하는 서로 다른 두 사람의 협업과 팀워크를 통해서 나오게 됐다. 우리는 클라우드 IT 서비스 회사에서 5년 동안 데이터와 분석 관련 일을 하면서 클라우드 분석 사례를 함께 개발했다. 다닐은 수년간의 하둡 경험을 바탕으로 기술적인 부분을, 린다는 비즈니스 관점의 전문성을 기반으로 협업했으며, 비즈니스와 기술이 합쳐져야 실제 데이터 문제를 해결할 수 있음을 깨달은 후 협업을 시작했다. 시간이 지나면서 다닐은 비즈니스지향적으로 바뀌었고 린다는 클라우드와 데이터를 기술적으로 알게 됐다. 우리는 서로 맞대응하기도 하면서 기술지향적인 상황도 경험했다.
빅데이터 플랫폼인 하둡 기반에서 데이터와 분석을 위한 클라우드 네이티브 플랫폼 기반으로 전환하는 것은 쉬운 일이었다. 클라우드와 빅데이터의 가능성이 무궁무진하다고 생각하는 사람 중 하나였던 우리는 회사의 지원을 받아 내부 팀을 구성해서 기술 솔루션을 설계하고 구축하는 프로젝트와 실제 비즈니스 문제를 해결하기 위한 데이터와 클라우드 기반 솔루션 구축 프로젝트도 진행했다. 이 기간 동안 수십여 명의 고객 대상으로 프로젝트를 수행해왔는데, 이 과정들로 관련 지식을 축적하고 모범 사례도 확보할 수 있게 됐다. 이러한 경험을 토대로 기술, 비즈니스 기반의 협업을 통해 더 복잡한 주제도 해결할 수 있을 것이라는 자신감도 생겼고, 이 분야에 관심 있는 분들에게도 관련 사례를 전파하면 좋겠다는 생각을 하게 됐다.
둘 다 업계 행사 같은 곳에서 강연자로 활발히 활동하고 있어 이 기회를 활용해 책 방향성에 대한 아이디어를 정리했고, 참석한 청중들의 피드백을 통해 흐름과 내용을 구체화할 수 있었다. 또한 이해를 돕기 위한 실제 고객 사례를 모아서 정리했다. 2년에 가까운 시간이 걸렸지만 우리 모두 결과에 정말 만족하기에, 여러분도 만족하기를 기대한다.
이 책을 출간하려는 이유는 기술 변화가 불가피하게 일어나고 있는 상황에서 확장 가능하고 유연한 클라우