1장. 데이터에 기반을 둔 의사 결정
많은 유사한 의사 결정
데이터 엔지니어의 역할
클라우드는 데이터 엔지니어를 능력자로 만든다
클라우드는 데이터 과학을 급속도로 변화시킨다
사례 연구로 확고한 사실을 얻을 수 있다
확률론적 결정
데이터와 도구
코드로 시작
요약
2장. 클라우드에 데이터 입수
항공사 정시 도착 데이터
알 수 있어야 함
학습-제공 간 왜곡
다운로드 절차
데이터셋 속성
데이터를 한곳에 저장하지 않는 이유
수직 확장
수평 확장
콜로수스와 주피터에 함께하는 데이터
데이터 입수
웹 양식 리버스 엔지니어링
데이터셋 다운로드
탐색 및 정리
구글 클라우드 스토리지에 데이터 업로드
월주기로 다운로드 스케줄링
파이썬으로 입수
플라스크 웹 애플리케이션
앱 앤진 실행
URL 보호
크론 작업 스케줄링
요약
코드 휴게소
3장. 혁신적인 대시보드 생성
대시보드로 모델 설명
대시보드를 먼저 만들어야 하는 이유
정확성, 정직성 및 좋은 설계
구글 클라우드 SQL에 데이터 탑재
구글 클라우드 SQL 인스턴스 생성
구글 클라우드 플랫폼과의 상호작용
MySQL에 대한 접근 제어
테이블 생성
테이블 채우기
첫 번째 모델 작성
분할표
임계값 최적화
머신 러닝
대시보드 작성
데이터 스튜디오로 시작
다이어그램 생성
최종 사용자 제어 기능 추가
파이 다이어그램으로 비율 표시
분할표 설명
요약
4장. 스트리밍 데이터: 송신 및 입수
이벤트 피드 설계
시간 보정
아파치 빔/클라우드 데이터플로우
공항 데이터 파싱
시간대 정보 추가
시간을 UTC로 변환
시간 보정
이벤트 생성
클라우드에서 파이프라인 실행
이벤트 스트림을 클라우드 pub/sub에 전송
전송할 기록 얻기
기록에 대한 분할
이벤트 일괄처리 구축
이벤트 일괄처리 전송
실시간 스트리밍 처리
자바 데이터플로우 기반 스트리밍
스트리밍 처리 실행
빅쿼리로 스트리밍 데이터 분석
실시간 대시보드
요약
이 책에서 다루는 내용
■ 앱 엔진 애플리케이션을 이용한 자동화되고 스케줄된 데이터 입수
■ 구글 데이터 스튜디오에서의 대시보드 생성과 구성
■ 스트리밍 분석을 수행하기 위한 실시간 분석 파이프라인 구축
■ 구글 빅쿼리를 이용한 대화형 데이터 탐색 수행
■ 클라우드 데이터프록 클러스터상에서 베이지안 모델 생성
■ 스파크를 이용한 로지스틱 회기 머신 러닝 모델 구축
■ 클라우드 데이터프록 파이프라인으로 시간-집계 피처 계산
■ 텐서플로를 이용한 고성능 예측 모델 생성
■ 배치 및 실시간 파이프라인으로부터 일반인이 접근할 수 있도록 마이크로서비스 모델 배포와 사용
이 책의 대상 독자
데이터 분석을 하는 독자 모두에게 적합한 책이다. 여러분은 시스템 프로그래머, 데이터 과학자, 데이터 엔지니어, 데이터베이스 관리자 또는 데이터 분석가일 것이다. 오늘날은 역할이 더 세분화될 수도 있지만(데이터 분석만 하든지, 모델 작성만 하든지, 데브옵스만 수행할 것이다, 업무 영역을 조금 늘리고 싶을 것이다. 데이터 과학 모델의 작성법뿐 아니라 상용 시스템에 대규모로 데이터 과학 모델을 구현하는 방법도 배우고 싶을 것이다.