1장. 소개
1.1 음성 및 언어 처리에 관한 지식
1.2 중의성
1.3 모델과 알고리듬
1.4 언어, 생각 및 이해
1.5 현재의 기술 수준
1.6 일부 간략한 역사
1.6.1 기초적 이해: 1940년대와 1950년대
1.6.2 두 캠프: 1957~1970년
1.6.3 네 가지 패러다임: 1970~1983년
1.6.4 경험론 및 유한 상태 모델 리덕스: 1983~1993년
1.6.5 필드 통합: 1994~1999년
1.6.6 머신러닝의 증가: 2000~2008년
1.6.7 복수 발견
1.6.8 심리학에 대한 간단한 요약
1.7 요약
참고문헌 및 역사 참고 사항
2장. 정규 표현식과 오토마타
2.1 정규 표현식
2.1.1 기본 정규 표현식 패턴
2.1.2 분리, 그룹화 및 우선순위
2.1.3 간단한 예
2.1.4 더 복잡한 예
2.1.5 고급 연산자
2.1.6 정규 표현식 치환, 메모리 및 엘리자
2.2 유한 상태 오토마타
2.2.1 양의 울음소리를 인식하기 위한 FSA의 사용
2.2.2 형식 언어
2.2.3 또 다른 예
2.2.4 비결정적 FSA
2.2.5 문자열 수용을 위한 NFSA 사용
2.2.6 검색으로 인식
2.2.7 결정적 및 비결정적 오토마타의 관계
2.3 정규 언어 및 FSA
2.4 요약
참고문헌 및 역사 참고 사항
연습
3장. 단어 및 변환기
3.1 (대부분의 영어 형태론 조사
3.1.1 굴절 형태론
3.1.2 파생 형태론
3.1.3 접어화
3.1.4 비연결형 형태론
3.1.5 일치
3.2 유한 상태 형태론 파싱
3.3 유한 상태 어휘 목록의 구조
3.4 유한 상태 변환기
3.4.1 순차 변환기 및 결정론
3.5 형태론적 파싱에 대한 FST
3.6 변환기 및 철자 규칙
3.7 FST 어휘와 규칙의 조합
3.8 어휘 목록이 없는 FST: 포터 어간
3.9 단어 및 문장 토큰화
3.9.1 중국어 분할
3.10 철자 오류 감지 및 수정
3.11
추천의 글
언어학은 과학 분야에서 100년의 역사를 가지고 있고, 컴퓨터 언어학은 컴퓨터 공학의 일부로서 50년의 역사를 가지고 있다. 그러나 언어 이해 기술이 인터넷에서 정보 검색과 기계 번역을 이용할 수 있고, 데스크톱 컴퓨터에서 음성 인식이 인기를 끌면서 수백만 명에게 알려진 산업으로 부상한 것은 불과 10여 년 전의 일이다. 이 산업은 언어 정보의 표현과 처리의 이론적 진보에 의해 가능해졌다.
『음성과 언어 처리 2/e』은 모든 수준에서 모든 현대 기술과 함께 철저히 다루는 최초의 책이다. 심층 언어 분석과 견고한 통계 방법을 결합하며, 레벨의 관점에서 보면 단어와 그 구성 요소들로 시작해 단어의 시퀀스 속성과 단어들이 어떻게 말하고 이해되는지 다룬 뒤, 단어들이 서로 어울리는 방식(구문, 의미를 형성하는 방식(의미론, 언어 간 질의응답, 대화, 번역의 기초를 살펴본다. 기술의 관점에서 보면 정규 표현, 정보 검색, 문맥 자유 문법, 통일, 일차 술어 해석, 은닉 마르코프와 다른 확률론적 모델, 수사학적 구조 이론 등을 다루고 있다. 이전에는 이런 종류의 적용 범위를 얻으려면 두세 권의 책이 필요했을 것이다. 이 책은 한 권으로 이 모든 범위를 다루고 있다. 하지만 무엇보다 각각의 기술이 어떻게 가장 잘 사용되고, 어떻게 함께 사용될 수 있는지에 대한 감각을 제공하고 있다는 점이 더 중요하다. 독자의 관심을 유지하고 철저하지만 무미건조하지 않은 방식으로 기술적 세부 사항에 동기를 부여하는 매력적인 스타일로 이 모든 과정을 수행한다. 여러분이 과학적이거나 산업적인 관점에서 본 분야에 관심이 있든지 간에 이 책은 이 매혹적인 분야의 향후 연구에 이상적인 소개와 안내 역할을 해줄 수 있을 것이다.
2000년에 출간된 이 책의 초판 이후 음성 및 언어 처리 분야는 여러 면에서 발전했다. 널리 사용되는 언어 기술에는 더 많은 애플리케이션이 있다. 많은 언어 데이터 모음(쓰기 및 말하기을 사용할 수 있게 되면서, 통계 머신러닝에 훨씬 더 의존하게