PART I 말 많은 컴퓨터: NLP의 기초 1
CHAPTER 1 사고의 단위: NLP의 개요 3
1.1 자연어 대 프로그래밍 언어 4
1.2 마법 5
1.2.1 대화하는 기계 6
1.2.2 수학 7
1.3 실제 응용들 9
1.4 컴퓨터의 ‘눈’으로 본 언어 11
1.4.1 자물쇠 언어 12
1.4.2 정규 표현식 13
1.4.3 간단한 챗봇 14
1.4.4 또 다른 방법 19
1.5 짧은 초공간 탐험 23
1.6 단어의 순서와 문법 25
1.7 챗봇의 자연어 처리 파이프라인 27
1.8 더 깊은 처리 30
1.9 자연어 IQ 32
요약 35
CHAPTER 2 나만의 어휘 구축: 단어 토큰화 37
2.1 어려운 문제: 어간 추출의 개요 39
2.2 토큰 생성기를 이용한 어휘 구축 40
2.2.1 내적 50
2.2.2 두 단어 모음의 중복 측정 51
2.2.3 토큰 개선 52
2.2.4 n-그램을 이용한 어휘 확장 58
2.2.5 어휘 정규화 66
2.3 감정 분석 76
2.3.1 VADER―규칙 기반 감정 분석기 78
2.3.2 단순 베이즈 모형 80
요약 84
CHAPTER 3 말 잘하는 수학: TF-IDF 벡터 85
3.1 단어 모음 86
3.2 벡터화 92
3.2.1 벡터 공간 95
3.3 지프의 법칙 101
3.4 주제 모형화 104
3.4.1 돌아온 지프 108
3.4.2 관련성 순위 110
3.4.3 주요 도구: scikit-learn 112
3.4.4 여러 TF-IDF 정규화 방법 113
3.4.5 Okapi BM25 115
3.4.6 다음 단계 116
요약 116
CHAPTER 4 단어 빈도에서 의미 찾기: 의미 분석 117
4.1 단어 빈도에서 주제 점수로 119
4.1.1 TF-IDF 벡터와 표제어 추출 119
4.1.2 주제 벡터 120
4.1.3 사고 실험 122
4.1.4 주제 점수를 매기는 알고리즘 12