도서상세보기

도서명 빅데이터 마이닝 3/e : 하둡을 이용한 대용량 데이터 마이닝 기법 (양장
저자 쥬어 레스코벡 외 공저
출판사 에이콘
출판일 2021-04-21
정가 50,000원
ISBN 9791161755137
수량
1장. 데이터 마이닝

1.1 데이터 마이닝이란?
1.1.1 모델링
1.1.2 통계 모델링
1.1.3 머신러닝
1.1.4 모델링에 대한 연산적 접근
1.1.5 요약
1.1.6 특징 추출
1.2 데이터 마이닝의 통계적 한계점
1.2.1 통합 정보 인지
1.2.2 본페로니의 이론
1.2.3 본페로니의 이론 사례
1.2.4 1.2절 연습문제
1.3 알아 두면 유용한 사실들
1.3.1 문서에서의 단어 중요도
1.3.2 해시 함수
1.3.3 인덱스
1.3.4 보조기억장치
1.3.5 자연 로그의 밑
1.3.6 멱 법칙
1.3.7 1.3절 연습문제
1.4 이 책의 개요
1.5 요약
1.6 참고문헌

2장. 맵리듀스와 새로운 소프트웨어 스택

2.1 분산 파일 시스템
2.1.1 노드들의 물리적 구조
2.1.2 대용량 파일 시스템 구조
2.2 맵리듀스
2.2.1 맵 태스크
2.2.2 키에 의한 그루핑
2.2.3 리듀스 태스크
2.2.4 컴바이너
2.2.5 맵리듀스 실행에 대한 더 자세한 설명
2.2.6 노드 장애 처리
2.2.7 2.2절 연습문제
2.3 맵리듀스를 사용하는 알고리즘
2.3.1 맵리듀스를 사용한 행렬 벡터 곱셈
2.3.2 벡터 v가 메인 메모리에 올라가지 않는 경우
2.3.3 관계 대수 연산
2.3.4 맵리듀스를 사용한 선택 연산
2.3.5 맵리듀스를 사용한 추출 연산
2.3.6 맵리듀스를 사용한 합집합, 교집합, 차집합 연산
2.3.7 맵리듀스를 사용한 자연 조인 연산
2.3.8 맵리듀스를 사용한 그루핑과 집계 연산
2.3.9 행렬 곱셈
2.3.10 한 단계 맵리듀스를 사용한 행렬 곱셈
2.3.11 2.3절 연습문제
2.4 맵리듀스의 확장
2.4.1 워크플로 시스템
2.4.2 스파크
2.4.3 스파크 구현
2.4.4 텐서플로
2.4.5 맵리듀스의 재귀적 확장
2.4.6 벌크 동기 시스템
2.4.7 2.4절 연습문제
2.5 통신 비용 모델
2.5.1 태스크
★ 옮긴이의 말 ★

이제는 빅데이터라는 용어 자체만큼이나 그 용어의 식상함을 논하는 것조차 식상하게 느껴지는 시대가 됐다. 그러나 이 책은 허식 없이 현실적인 접근 방식으로 데이터 마이닝 기법을 빅데이터에 적용하는 방법을 설명하고 있다. 각 기법을 메모리에 담을 수 있는 경우와 메모리에 담을 수 없는 경우로 나눠 친절하게 해법을 알려 준다. 서서히 데이터 과학 분야는 관련 업계의 통계학자나 엔지니어가 갖춰야 할 선택적인 ‘지식’이 아닌, 필수적인 ‘상식’이 돼 가고 있다. 어쩌면 우리는 미래의 상식을 공부하기 위해 이 책을 펼친 것인지도 모른다. 이 책은 통계학, 데이터 마이닝, 컴퓨터 공학을 동시에 다루고 있음에도 이 세 분야를 자세하고도 조화롭게 서술하고 있다. 덕분에 대학 교재(http://www.mmds.org/임에도 실무에 도움이 될 정도로 깊이가 있다는 장점이 있다. 동시에 통계학자와 엔지니어 모두에게 어려운 책이 돼 버렸다는 단점도 있다.
따라서 이 책을 공부하는 데 도움이 되는 팁을 먼저 공유한다.
1. 원서는 아래 URL에서 무료로 다운로드할 수 있다. 번역서만으로 잘 이해가 되지 않는 부분이 있다면 해당 부분을 원서에서 찾아 반복해서 세 번 정도 차분하게 읽어 보기 바란다.
http://infolab.stanford.edu/~ullman/mmds/book0n.pdf
2. 아무래도 대학 교재이다 보니 전개 방식이 연역적이며 딱딱한 편이라서 이해가 어려울 수 있다. 각 절의 앞부분을 이해하지 못했더라도 일단 빠르게 읽고 넘어간 후 예제를 보기 바란다. 예제를 읽고 나서 다시 앞부분의 이론을 보면 이해가 쉬울 것이다.
통계학자와 엔지니어는 각기 다른 관점으로 데이터 과학이라는 분야에 접근한다. 통계학자들은 신뢰 구간과 불확실성 측정에 관심이 많은 반면, 프로그래머들은 머신러닝을 통한 재빠른 구현과 그 결과에 더 관심을 두는 편이다. 이를 정리하기 위해 조시 윌스(https://twitter.com/josh_wills/는 이렇게 말했다