도서상세보기

도서명 한국어 임베딩 - 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지
저자 이기창
출판사 에이콘
출판일 2019-09-26
정가 35,000원
ISBN 9791161753508
수량
1장. 서론
1.1 임베딩이란
1.2 임베딩의 역할
1.2.1 단어/문장 간 관련도 계산
1.2.2 의미/문법 정보 함축
1.2.3 전이 학습
1.3 임베딩 기법의 역사와 종류
1.3.1 통계 기반에서 뉴럴 네트워크 기반으로
1.3.2 단어 수준에서 문장 수준으로
1.3.3 룰 → 엔드투엔드 → 프리트레인/파인 튜닝
1.3.4 임베딩의 종류와 성능
1.4 개발 환경
1.4.1 환경 소개
1.4.2 AWS 구성
1.4.3 코드 실행
1.4.4 버그 리포트 및 Q&A
1.4.5 이 책이 도움받고 있는 오픈소스들
1.5 이 책이 다루는 데이터와 주요 용어
1.6 이 장의 요약
1.7 참고 문헌

2장. 벡터가 어떻게 의미를 가지게 되는가
2.1 자연어 계산과 이해
2.2 어떤 단어가 많이 쓰였는가
2.2.1 백오브워즈 가정
2.2.2 TF-IDF
2.2.3 Deep Averaging Network
2.3 단어가 어떤 순서로 쓰였는가
2.3.1 통계 기반 언어 모델
2.3.2 뉴럴 네트워크 기반 언어 모델
2.4 어떤 단어가 같이 쓰였는가
2.4.1 분포 가정
2.4.2 분포와 의미 (1: 형태소
2.4.3 분포와 의미 (2: 품사
2.4.4 점별 상호 정보량
2.4.5 Word2Vec
2.5 이 장의 요약
2.6 참고 문헌

3장. 한국어 전처리
3.1 데이터 확보
3.1.1 한국어 위키백과
3.1.2 KorQuAD
3.1.3 네이버 영화 리뷰 말뭉치
3.1.4 전처리 완료된 데이터 다운로드
3.2 지도 학습 기반 형태소 분석
3.2.1 KoNLPy 사용법
3.2.2 KoNLPy 내 분석기별 성능 차이 분석
3.2.3 Khaiii 사용법
3.2.4 은전한닢에 사용자 사전 추가하기
3.3 비지도 학습 기반 형태소 분석
3.3.1 soynlp 형태소 분석기
3.3.2 구글 센텐스피스
3.3.3 띄어쓰기 교정
3.3.4 형태소 분석 완료된 데이터 다운로드
★ 이 책에서 다루는 내용 ★

■ 자연어 처리의 첫 관문인 임베딩의 개념과 종류, 역사 소개
■ 임베딩이 어떻게 자연어 의미를 함축하는지 이론적 배경 풀이
■ 위키백과, KorQuAD 등 한국어 말뭉치 전처리 노하우 공유
■ KoNLPy, soynlp, 구글 센텐스피스(sentencepiece 패키지 안내
■ Word2Vec, GloVe, FastText, Swivel 등 단어 수준 임베딩
■ LDA, Doc2Vec, ELMo, BERT 등 문장 수준 임베딩 설명
■ 개별 모델 학습과 동작 과정을 코드 레벨로 설명한 후 튜토리얼 진행
■ 문서 분류 태스크를 중심으로 임베딩 파인튜닝(fine-tuning 실습

★ 이 책의 대상 독자 ★

■ 임베딩의 이론적 배경과 동작 원리에 관심이 많은 데이터 과학자
■ 자연어 분포와 의미 사이의 관계 해명을 중시하는 언어학 연구자
■ 품질 좋은 임베딩을 현업에 적용하려는 머신 러닝 엔지니어와 개발자