1부 텍스트 데이터란 무엇인가
01 텍스트를 데이터로 파악하기
2부 텍스트 데이터 처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 stringr 패키지 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석
3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계분석
02 토픽모형
03 감정분석
4부 마무리
01 RSelenium, rvest 패키지를 활용한 온라인 데이터 수집
02 맺음말
별첨 자료
01 자바 설치 방법
02 잠재토픽 개수 선정
R를 이용한 텍스트 마이닝(개정판
이번 개정판에는...
첫째, 텍스트 사전처리와 관련된 stringr 패키지에 편리한 기능을의 함수들이 새로 탑재되었다. 이에 따라 2판에서는 stringr 패키지의 함수들을 설명하는 분량이 증가했다.
둘째, 1판에서 사용한 말뭉치(corpus 데이터를 업데이트했다.
셋째, KoNLP 패키지에서 기존 사전에 이용자가 지정 표현을 추가하하는 방법을 소개했다. 또한 KoNLP 패키지 외에 한국어 형태소 분석이 가능한 R 패키지들을 간단하게 소개했다.
넷째, 텍스트 내부의 단어와 단어의 연관 관계를 설명에 널리 사용되는 연관 규칙(association rule 분석을 새로 소개했다.
다섯째, 잠재적 디리클레 할당(latent Dirichlet allocation, LDA 모형에서 최적의 잠재토픽 개수를 추정하는 방법을 추가로 소개했다.
여섯째, 적은 수의 단어로 구성된 짧은 텍스트(예를 들어 140자 이내의 트윗, 온라인 Q&A 게시판, 광고 문구 등에서 잠재토픽을 추정하는 데 특화된 토픽모형들 중 하나로 ‘공통단어등장 토픽모형(biterm topic model, BTM’을 추가로 소개했다.
일곱째, 타이디데이터 관점에서 데이터를 조직하고 관리하는 tidyverse 접근법을 기반으로 하는 텍스트 데이터 분석기법들을 대폭 추가했다.
여덟째, 감정어휘 사전(sentiment lexicon을 이용한 감정분석(sentiment analysis 내용은 거의 대부분을 새로 작성했다. 우선 영어 텍스트의 경우 최근 새로운 감정어휘 사전들이 개발되어 공개되면서, 이를 다운로드받을 수 있는 textdata 패키지를 새로 소개하게 되었다.
아홉째, caret 패키지를 이용해 지도 기계학습 기법을 소개했다.
끝으로 웹 스크레이핑(scraping을 소개하는 부분은 완전히 새로 작성했다. 1판에서는 실렉터가젯(selectorGadget이라는 프로그램을 위주로 웹 스크레이핑을 설명했으나, 온라인 공간의 웹페이지 구성 방