도서상세보기

도서명 하이 퍼포먼스 스파크
저자 홀든 카로
출판사 제이펍
출판일 2018-05-31
정가 28,000원
ISBN 9791188621248
수량
CHAPTER 01 고성능 처리를 위한 스파크 시작하기 1
스파크는 무엇이며 성능은 왜 중요한가? 1
이 책에서 얻을 수 있는 것은 무엇인가? 2
스파크 버전 규칙 3
왜 스칼라인가? 4
스파크 전문가가 되고 싶다면 어쨌든 약간이라도 스칼라를 알아야 한다 4
스파크의 스칼라 API는 자바 API보다 훨씬 사용하기 쉽다 5
스칼라는 파이썬보다 성능이 더 뛰어나다 5
꼭 스칼라를 써야만 하는가? 5
스칼라 배우기 6
요약 7

CHAPTER 02 스파크는 어떻게 동작하는가? 8
스파크는 빅데이터 생태계에서 어떻게 자리 잡고 있는가? 9
스파크 컴포넌트 10
스파크의 병렬 연산 모델: RDD 12
지연 평가 13
메모리 영속화와 메모리 관리 16
불변성과 RDD 인터페이스 17
RDD의 종류 19
RDD의 함수들: 트랜스포메이션 vs. 액션 20
넓은 종속성 vs. 좁은 종속성 21
스파크 잡 스케줄링 23
애플리케이션 간의 자원 할당 23
스파크 애플리케이션 23
스파크 잡의 해부 25
DAG 26
잡 27
스테이지 27
태스크 28
요약 30

CHAPTER 03 DataFrame, Dataset와 스파크 SQL 31
SparkSession(혹은 HiveContext 또는 SQLContext으로 시작하기 33
스파크 SQL 의존성 35
스파크 의존성 관리 36
하이브 JAR 회피 37
스키마의 기초 38
DataFrame API 42
트랜스포메이션 42
다중 DataFrame 트랜스포메이션 54
전통적인 SQL 질의/하이브 데이터와 상호 연동하기 54
DataFrame과 Dataset에서의 데이터 표현 55
텅스텐 55
데이터 적재/저장 함수들 57
DataFrameWriter와 DataFrameReader 57
포맷들 58
저장 모드 68
파티션(복구 및 쓰기 68
Dataset 69
RDD, DataFrame, 로컬 컬렉션과의 상호 운용성 70
컴파일 타임의 강력한 타
아파치 스파크의 성능 최적화를 위한 코드 작성법!

모든 것이 잘 동작할 때 아파치 스파크는 놀라운 성능을 보여주지만, 아직 기대한 만큼의 성능을 보지 못했거나 스파크를 실무에 적용할 만한 확신을 얻지 못하고 있다면 이 책은 당신을 위한 것이다. 저자들은 적은 자원을 쓰면서도 더 빠르고 더 큰 데이터를 다룰 수 있도록 아파치 스파크의 성능 최적화를 잘 보여준다.

대규모 데이터를 다루는 소프트웨어 엔지니어, 데이터 엔지니어, 개발자, 시스템 관리자에게 더할 나위 없는 이 책은 데이터 인프라 비용과 개발 시간을 줄여주는 기술을 소개한다. 스파크를 깊게 이해함과 동시에 스파크의 독보적인 성능을 어떻게 끌어내는지 배울 수 있을 것이다.

이 책의 주요 내용
■ 스파크 SQL의 새로운 인터페이스 성능을 향상시키는 방법
■ 코어 스파크와 스파크 SQL에서의 조인 종류 선택
■ 기본 RDD 트랜스포메이션을 최대한 활용하는 방법
■ 키/값 페어 패러다임에서의 성능 이슈
■ 스칼라나 JVM 없이 고성능 스파크 코드를 작성하는 방법
■ 제시된 성능 향상을 위해 기능과 성능을 테스트하는 방법
■ 스파크 MLlib 및 스파크 ML 머신러닝 라이브러리 사용 방법
■ 스파크의 스트리밍 컴포넌트와 외부 커뮤니티 패키지