지은이·옮긴이 소개 xiii
기술 감수자 소개 xiv
옮긴이 머리말 xv
베타리더 후기 xvii
감사의 글 xix
이 책에 대하여 xx
^^CHAPTER 1 머신러닝과 파이썬 시작하기 1^^
1.1 머신러닝 소개 2
1.2 머신러닝의 전제 조건 7
1.3 세 가지 유형의 머신러닝 시작하기 8
1.4 머신러닝의 핵심 파헤치기 11
1.5 데이터 처리와 특징 공학 23
1.6 모델 결합 29
1.7 소프트웨어 설치 및 설정 34
1.8 요약 39
1.9 연습 문제 39
^^CHAPTER 2 나이브 베이즈를 이용한 영화 추천 엔진 구축 41^^
2.1 분류 시작하기 42
2.2 나이브 베이즈 45
2.3 나이브 베이즈 구현 52
2.4 나이브 베이즈를 이용한 영화 추천기 구축 57
2.5 분류 성능 평가 62
2.6 교차 검증으로 모델 조정 66
2.7 요약 69
2.8 연습 문제 69
2.9 참고 문헌 70
^^CHAPTER 3 서포트 벡터 머신을 이용한 얼굴 인식 71^^
3.1 SVM으로 구분 경계 탐색 72
3.2 SVM을 이용한 얼굴 이미지 분류 90
3.3 태아심박동검사에서 태아 상태 분류 96
3.4 요약 98
3.5 연습 문제 99
^^CHAPTER 4 트리 기반 알고리즘을 이용한 온라인 광고 클릭률 예측 101^^
4.1 광고 클릭률 예측의 개요 102
4.2 두 가지 유형의 데이터로 시작하기: 수치형과 범주형 103
4.3 루트에서 리프까지 의사결정 트리 탐색 104
4.4 밑바닥부터 구현하는 의사결정 트리 115
4.5 사이킷런을 이용한 의사결정 트리 구현 123
4.6 의사결정 트리를 이용한 광고 클릭률 예측 124
4.7 의사결정 트리 앙상블: 랜덤 포레스트 130
4.8 의사결정 트리 앙상블: 그레이디언트 부스티드 트리 132
4.9 요약 135
4.10 연습 문제 135
^^CHAPTER 5 로지스틱 회귀를 이용한 온라인 광고 클릭률 예측 137
다양한 프레임워크, 다양한 알고리즘, 다양한 예제로 익히는 실전 머신러닝 개발
머신러닝이 업계 전반에서 널리 활용되고 있지만, 기법과 도구는 나날이 새로워지고 있어 어떤 조합을 어떤 시나리오에 적용할지 막막함을 느끼는 실무자가 많다. 이 책은 일부 알고리즘을 깊이 파고들기보다는 다양한 애플리케이션 예제를 훑고 구현함으로써 EDA, 특징 공학, 분류, 회귀, 군집화, NLP 등 영역에서의 머신러닝 알고리즘의 작동 원리를 되새길 수 있게 한다.
1장은 머신러닝 기술을 개괄하고, 바로 2장부터 나이브 베이즈를 이용해 영화 추천 엔진을 구축해본다. 라이브러리 없이 ‘밑바닥부터’ 구현하는 법과 사이킷런을 이용하는 법을 모두 다루며, 이러한 방식이 이후 챕터에서도 자주 반복된다. 3장은 SVM을 설명하고 얼굴 인식이나 심전도 분류에 활용한다.
4장부터 6장은 온라인 광고 클릭률 데이터셋을 사용한 예측을 살펴본다. 4장은 의사결정 트리, 랜덤 포레스트 등 트리 기반 알고리즘으로, 5장은 로지스틱 회귀로 광고 클릭률 예측기를 만들어본다. 이 과정에서 사이킷런, XGBoost, 텐서플로 등 익숙한 라이브러리들의 사용법도 익힐 수 있다. 6장은 스파크를 사용해 테라바이트 규모의 로그를 분석해봄으로써 광고 클릭률 예측기를 더욱 확장한다.
7장과 8장은 누구나 관심 있는 주가 예측 문제를 다룬다. 7장에서는 회귀 기법을 자세히 설명한 다음에, 8장에서는 딥러닝의 기초인 신경망을 설명한 다음에 여러 방식으로 구현해 주가 예측에 적용해본다.
9장과 10장은 뉴스그룹 데이터셋을 예시로 NLP 애플리케이션을 실습한다. NLP에서 널리 쓰이는 라이브러리들을 개괄한 다음, 토큰화, 어간 추출, 표제어 추출 등 NLP의 기초를 설명하고, 나아가 차원 축소(t-SNE, 비지도학습(주제 모델링, k-평균 군집화까지 살펴본다. 11장은 잠시 숨을 고르고 머신러닝 작업 워크플로에서 단계별로 대표적인 모범 사례를 꼽아 살펴본다.
12장과 13장은 각각 CNN과 RNN을