1부. 책의 구성과 R 소개
1장. 개요
2장. R과 RStudio
2부. 데이터 관리와 그래프 작성
3장. R로 데이터 가져오기
4장. 데이터 랭글링과 그래프 작성
5장. 네트워크
3부. 데이터 분석에 필요한 수학 사전지식
6장. 함수
7장 차분방정식
8장. 행렬
4부. 데이터 기반 추론
9장. 통계적 추론
10장. 인과적 추론
5부. 성장 데이터 접근, 분석, 해석
11장. 성장 데이터와 모형
12장. 성장 원인
6부. 시계열 데이터
13장. 시계열 그래프
14장. 시계열 모형
7부. 데이터를 통한 통계적 학습과 머신러닝
15장. 평활기와 일반화 가법 모형
16장. 트리부터 랜덤 포레스트까지
이 책에서 다루는 내용
데이터 과학의 중심에는 데이터가 있으며, 이 책에서는 네트워크 데이터를 포함해 데이터를 가져오고 랭글링(wrangling하는 방법을 설명한다. 또한 초반부부터 많이 사용하는 ggplot2 패키지를 이용해 데이터 시각화 작업을 살펴보며, 기본적인 지도도 작성해본다. 함수 이해, 차분방정식 시뮬레이션, 행렬 연산 수행에 R을 사용하는 방법도 다룬다. 이 책은 몬테카를로(Monte Carlo 시뮬레이션을 사용해 확률과 통계적 추론(statistical inference을 이해하며, 부트스트랩도 소개한다. 인과적 추론(causal inference은 실험(experiment, 매칭(matching, 회귀 불연속(regression discontinuity, 이중차분법(difference-in-difference, 도구 변수(instrumental variable를 다루는 실제 경제 예제와 함께 활용을 위해 시뮬레이션, 데이터 그래프, R 코드를 사용해 집중적으로 살펴본다. 성장과 관련된 데이터와 모형의 상호작용을 설명하며, 이후에 그래프, 시뮬레이션, 예제를 사용해 시계열 데이터 분석을 살펴본다. 마지막으로, 두 가지 계산 집약적 방법인 일반화 가법 모형(generalized additive model과 머신러닝 분야에서 많이 사용하는 랜덤 포레스트(random forest를 활용법과 함께 직관적으로 살펴본다.
이 책의 대상 독자
R을 배우고자 하는 학생, 교사, 연구원 등의 경제학도들에게 도움이 될 책이다. 특히 경제학과 학생들이 응용경제학을 직관적으로 이해하고, 자료를 적극적으로 활용하며, 동시에 핵심 데이터 과학 기술을 갖추는 데 도움이 될 것이다.
이 책의 구성
1부, ‘책 구성과 R 소개’에서는 R의 주요 내용을 충분히 소개하는 것을 목표로 한다.
2부, ‘데이터 관리와 그래프 작성’에서는 위컴이 개선한 데이터 과학의 특성 중 하나인 랭글링과 그래프 작성을 소개한다.
3부, ‘데이터 분석에 필요한 수학