1부. 기초 지식
1장. 들어가며
1.1 정보 검색이란 무엇인가?
1.1.1 웹 검색
1.1.2 다른 검색 응용 프로그램
1.1.3 다른 정보 검색 응용 분야
1.2 정보 검색 시스템
1.2.1 정보 검색 시스템의 기본 구조
1.2.2 문서 갱신
1.2.3 성능 평가
1.3 전자 문서 다루기
1.3.1 본문 형식
1.3.2 영문에서 간단히 토큰 만들기
1.3.3 텀의 분포
1.3.4 언어 모델링
1.4 시험용 자료 모음
1.4.1 TREC 과업
1.5 오픈소스 정보 검색 시스템
1.5.1 루씬
1.5.2 Indri
1.5.3 Wumpus
1.6 더 읽을거리
1.7 연습 문제
1.8 참고문헌
2장. 검색 기초
2.1 역색인
2.1.1 심화 예제: 구문 검색
2.1.2 역색인 구현하기
2.1.3 문서와 그 밖의 요소들
2.2 문서 선택과 순위화
2.2.1 벡터 공간 모델
2.2.2 근접도 순위화
2.2.3 불리언 검색
2.3 평가
2.3.1 재현율과 정밀도
2.3.2 순위화 검색의 유효성 척도
2.3.3 시험용 자료 만들기
2.3.4 능률 척도
2.4 요약
2.5 더 읽을거리
2.6 연습 문제
2.7 참고문헌
3장. 토큰과 텀
3.1 영어
3.1.1 구두점과 대문자
3.1.2 어간 추출
3.1.3 불용어 제거
3.2 문자
3.3 문자 N-Gram
3.4 유럽 언어
3.5 한중일 언어
3.6 더 읽을거리
3.7 연습 문제
3.8 참고문헌
2부. 색인하기
4장. 정적 역색인
4.1 색인 요소와 생명 주기
4.2 사전
4.3 포스팅 목록
4.4 사전과 포스팅 목록 뒤섞기
4.5 색인 생성
4.5.1 메모리상의 색인 생성
4.5.2 정렬 기반 색인 생성
4.5.3 병합 기반 색인 생성
4.6 다른 색인 유형
4.7 요약
4.8 더 읽을거리
4.9 연습 문제
4.10 참고문헌
5장. 질의 처리하기
5.1 순위화 검색 질의 처리하
스테판 버처(지은이의 말
정보 검색 이론은 현대 검색엔진의 근간을 이룬다. 이 책은 전산학, 컴퓨터 공학, 소프트웨어 공학 분야의 대학원생과 현업 전문가를 대상으로 정보 검색 이론을 소개한다. 알고리즘, 자료 구조, 색인, 검색, 평가와 같은 핵심 주제는 물론이고 더 깊이 탐구할 수 있는 바탕을 제공함으로써 폭넓은 관심을 끌 만한 주제를 선정했다. 또한 웹 검색엔진, 병렬 처리 시스템, XML 검색과 같이 잘 알려졌거나 향후 널리 쓰일 응용 분야의 특성을 다루는 데에도 신경을 썼다. 이론과 실제 사이에서 균형을 잡으면서도, 구현 방식이나 실험 결과 등을 강조해서 실용성에 조금 더 무게를 실었다. 본문에서 소개한 기법은 가급적 실험을 거쳐 비교, 평가했다. 각 장 마지막에는 연습 문제와 프로젝트가 나온다. Wumpus는 저자 중 한 사람이 개발에 참여한 멀티유저 오픈소스 정보 검색 시스템으로서, 모델을 구현하고 수업 과제의 기반 내용을 제공하는 데 활용했다.