목차
[1부] 하둡 기초
▣ 01. 하둡 살펴보기
1.1 빅데이터의 시대
1.2 하둡이란?
1.3 하둡 에코시스템
1.4 하둡에 대한 오해
1.5 하둡의 과제
1.6 하둡 배포판
▣ 02. 하둡 개발 준비
2.1 실행 모드 결정
2.2 리눅스 서버 준비
2.3 하둡 다운로드
2.4 하둡 실행 계정 생성
2.5 호스트 파일 수정
2.6 인코딩 방식 설정
2.7 자바 설치
2.8 SSH 설정
2.9 하둡 압축 파일 풀기
2.10 하둡 환경설정 파일 수정
2.11 하둡 실행
2.12 예제 실행
▣ 03. 하둡 분산 파일 시스템
3.1 HDFS 기초
3.2 HDFS 아키텍처
3.3 HDFS 명령어
3.4 클러스터 웹 인터페이스
3.5 HDFS 입출력 예제
▣ 04. 맵리듀스 시작하기
4.1 맵리듀스의 개념
4.2 맵리듀스 아키텍처
4.3 WordCount 만들기
[02부] 맵리듀스 애플리케이션 개발
▣ 05. 맵리듀스 기초 다지기
5.1 맵리듀스 잡의 실행 단계
5.2 분석용 데이터 준비
5.3 항공 출발 지연 데이터 분석
5.4 항공 도착 지연 데이터 분석
5.5 사용자 정의 옵션 사용
5.6 카운터 사용
5.7 다수의 파일 출력
5.8 체인
▣ 06. 정렬
6.1 보조 정렬
6.2 부분 정렬
6.3 전체 정렬
▣ 07. 조인
7.1 조인 데이터 준비
7.2 맵 사이드 조인
7.3 리듀스 사이드 조인
[03부] 하둡 운영 및 활용
▣ 08. 맵리듀스 튜닝
8.1 셔플 튜닝
8.2 콤바이너 클래스 적용
8.3 맵 출력 데이터 압축
8.4 DFS 블록 크기 수정
8.5 JVM 재사용
8.6 투기적인 잡 실행
8.7 압축 코덱 선택
▣ 09. 하둡 운영
9.1 클러스터 계획
9.2 네임노드 HA 구성
9.3 파일 시스템 상태 확인
9.4 밸런서
9.5 HDFS 어드민 명령어 사용
9.6 데이터 저장 공간 관리
9.7 데이터노드 제거
9.8 데이터노드 추
출판사 서평
★ 이 책에서 다루는 내용 ★
◎ 리눅스, 아마존 웹 서비스(AWS 환경에서의 하둡 설치
◎ HDFS와 맵리듀스의 구조 및 활용
◎ 맵리듀스 튜닝, 하둡 클러스터 운영
◎ 하둡2의 구조 및 활용
◎ YARN의 상세 아키텍처 및 클러스터 운영
◎ 헤테로지니어스 스토리지 및 HDFS 롤링 업그레이드
◎ 하둡 에코시스템: 하이브, 스쿱, 타조
◎ 네이버 및 아프리카TV의 하둡 적용 사례
이 책은 하둡의 설치부터 핵심 구성 요소인 HDFS와 맵리듀스의 동작 원리, 그리고 다양한 실용적인 예제를 포함하고 있어 하둡 ...
★ 이 책에서 다루는 내용 ★
◎ 리눅스, 아마존 웹 서비스(AWS 환경에서의 하둡 설치
◎ HDFS와 맵리듀스의 구조 및 활용
◎ 맵리듀스 튜닝, 하둡 클러스터 운영
◎ 하둡2의 구조 및 활용
◎ YARN의 상세 아키텍처 및 클러스터 운영
◎ 헤테로지니어스 스토리지 및 HDFS 롤링 업그레이드
◎ 하둡 에코시스템: 하이브, 스쿱, 타조
◎ 네이버 및 아프리카TV의 하둡 적용 사례
이 책은 하둡의 설치부터 핵심 구성 요소인 HDFS와 맵리듀스의 동작 원리, 그리고 다양한 실용적인 예제를 포함하고 있어 하둡 프로그래밍을 손쉽게 시작할 수 있다. 그리고 하둡 클러스터를 운영하는 데 필수적인 관리 방법과 하둡 스트리밍, 스케줄러와 같은 부가 기능의 활용법 등이 담겨 있다. 또한 2013년 10월에 공식 릴리스된 하둡2의 구조와 하둡2의 핵심 컴포넌트인 YARN의 동작 원리와 적용 방법에 대해서도 상세히 설명한다.
리눅스 서버 구성이 어려운 독자를 위해 이 책에서는 아마존 웹 서비스(AWS에서 하둡을 설치하는 방법까지 소개하고 있으며, 기존 데이터 분석가들도 손쉽게 하둡에 저장된 데이터를 활용할 수 있게 하이브, 스쿱, 타조의 활용법도 다룬다. 마지막으로 하둡을 실제 서비스에 도입하려는 독자에게 통찰력을 주고자 다양한 하둡 적용 사례를 소개한다.
이 책은 초판에 비해 HDFS와 맵리듀스에 대한 상세한 설명