▣ 01장: 스파크 소개
1.1 스파크
___1.1.1 빅데이터의 등장
___1.1.2 빅데이터의 정의
___1.1.3 빅데이터 솔루션
___1.1.4 스파크
___1.1.5 RDD(Resilient Distributed Dataset 소개와 연산
___1.1.6 DAG
___1.1.7 람다 아키텍처
1.2 스파크 설치
___1.2.1 스파크 실행 모드의 이해
___1.2.2 사전 준비
___1.2.3 스파크 설치
___1.2.4 예제 실행
___1.2.5 스파크 셸
___1.2.6 실행 옵션
___1.2.7 더 살펴보기
1.3 개발 환경 구축
___1.3.1 로컬 개발 환경 구축
1.4 예제 프로젝트 설정
___1.4.1 WordCount 예제 실행
1.5 데이터프레임과 데이터셋
1.6 정리
▣ 02장: RDD
2.1 RDD
___2.1.1 들어가기에 앞서
___2.1.2 스파크컨텍스트 생성
___2.1.3 RDD 생성
___2.1.4 RDD 기본 액션
___2.1.5 RDD 트랜스포메이션
___2.1.6 RDD 액션
___2.1.7 RDD 데이터 불러오기와 저장하기
___2.1.8 클러스터 환경에서의 공유 변수
2.2 정리
▣ 03장: 클러스터 환경
3.1 클러스터 환경
___3.1.1 클러스터 모드와 컴포넌트
___3.1.2 클러스터 모드를 위한 시스템 구성
___3.1.3 드라이버 프로그램과 디플로이 모드
3.2 클러스터 매니저
___3.2.1 스탠드얼론 클러스터 매니저
___3.2.2 아파치 메소스
___3.2.3 얀
___3.2.4 히스토리 서버와 매트릭스
___3.2.5 쿠버네티스(Kubenetes
3.3 정리
▣ 04장: 스파크 설정
4.1 스파크 프로퍼티
4.2 환경변수
4.3 로깅 설정
4.4 스케줄링
___4.4.1 애플리케이션 간의 자원 스케줄링
___4.4
스파크를 처음 접하는 입문자를 위한 안내서!
하둡으로 대표되던 빅데이터 처리 기술은 빅데이터와 머신러닝, 딥러닝의 붐을 타고 믿을 수 없을 만큼 빠른 속도로 발전해가고 있습니다. 작년 봄 이 책의 초판이 출시되던 해에 스파크는 이미 최고의 데이터 처리 플랫폼 중 하나로 인정받고 있었습니다. 하지만 더 이상 큰 폭의 개편은 없을 것만 같았던 스파크는 그 후로도 더욱 주목할 만한 변화를 거듭하면서 불과 1년이 지난 지금 더욱더 새로워진 API와 고도화된 성능을 갖춘 최적의 데이터 처리 플랫폼으로 변화를 거듭하고 있습니다.
이 책은 스파크를 처음 접하는 개발자들이 빠른 시간 내에 스파크가 무엇이고 어디에 어떻게 활용할 수 있는지 실무에 필요한 감을 잡을 수 있도록 스파크의 전체 모듈에 대한 설명과 예제를 담고 있습니다. 특히 스파크를 써 보고 싶지만 새로운 언어를 배우는 데 따르는 부담 때문에 망설이던 개발자들을 위해 스칼라, 자바, 파이썬 예제를 수록했습니다.
이 책을 통해 스파크에 대한 기초를 다지고 나면 각자의 영역에서 스파크가 제공하는 풍부한 기능들을 더 깊이 있고 자유롭게 활용할 수 있게 될 것입니다.