머리말
01. 왜 파이썬을 활용한 텍스트 마이닝인가?
1. 왜 텍스트 마이닝인가?
2. 왜 파이썬인가?
3. 파이썬으로 하는 텍스트 마이닝의 절차 및 이 책의 구성
02. 파이썬 설치하고 시작하기
1. 파이썬 설치하기
2. 파이썬 실행 방법 및 핵심 라이브러리
03. 기초 파이썬 코딩
1. 파이썬의 입력과 출력
2. 데이터의 유형과 처리
3. 제어문
04. 파이썬으로 하는 통계기초
1. 이 책에서 사용하는 데이터에 대한 설명
2. 데이터 불러오기 및 데이터 프레임 변환
3. 데이터 탐사와 통계분석 방법의 결정
4. 파이썬으로 하는 통계분석
05. 텍스트 수집하기
1. 엑셀을 활용한 데이터 수집
2. 공개 API 활용
3. 공공데이터 포털을 활용하여 데이터 수집하기
4. 한국언론진흥재단의 빅 카인즈로 언론기사 수집하기
06. 텍스트 정제하기
1. 자연어 처리의 기본개념과 절차
2. 영어 텍스트의 자연어 처리
3. 한국어 텍스트의 자연어 처리
07. 핵심어 빈도분석
1. 단순 빈도분석
2. 단어 구름으로 시각화하기
3. 어휘 빈도-문서 역빈도(TF-IDF 분석
08. 의미 연결망분석
1. 사회(의미 연결망분석의 기본개념
2. 의미 연결망의 속성
09. 군집분석
1. 군집분석의 기본개념
2. 비계층적 군집분석
3. 계층적 군집분석
10. 토픽 모델링과 단어임베딩
1. 토픽 모델링과 LDA의 이해
2. 단어임베딩과 Word2Vec의 이해
11. 감정분석
1. 감정분석의 기본개념
2. 감정어휘 사전을 이용한 문서 감정분석
3. 공개 API를 활용한 이미지 감정분석
12. 마무리
참고문헌
빅데이터 시대, 이제는 데이터 리터러시가 중요하다!
전통적으로 글을 읽고 쓸 줄 아는 리터러시 능력이 중요했다. 대중매체가 발달하자 미디어를 이해하고 활용할 줄 아는 미디어 리터러시(media literacy 능력이 강조되었다. 이제 빅데이터 시대를 맞아, 데이터를 분석하고 이해하며 활용할 줄 아는 데이터 리터러시(data literacy 능력에 대한 요구가 높아지고 있다.
데이터 리터러시의 기초는 텍스트 마이닝!
데이터의 70% 이상은 숫자로 된 정형 데이터가 아니다. 문자 및 이미지로 구성된 비정형 데이터, 즉 텍스트이다. 텍스트를 대상으로 데이터 분석기술을 활용하여 텍스트 데이터의 특징과 일정한 패턴 등을 분석함으로써 유용한 지식을 발견하는 텍스트 마이닝은 데이터 리터러시 능력의 핵심이다
텍스트 마이닝을 위한 강력한 분석 도구 파이썬!
여러 영역에 두루두루 활용되어 ‘맥가이버의 칼’로 비유되는 파이썬. 그 탁월한 범용성 때문에 최근 인기가 치솟으면서 가장 인기 있는 프로그래밍 언어로 각광받고 있다. 통계 및 데이터 분석에 강력한 효용성을 과시하던 파이썬으로 텍스트 마이닝을 자유자재로 구사한다.