PART 1 들어가며
CHAPTER 01 R과 R Studio 설치 안내
CHAPTER 02 타이디버스 패키지와 타이디데이터(tidy data
CHAPTER 03 본서에서 사용된 R 패키지
CHAPTER 04 기본적인 R 사용법과 R 베이스 함수들
PART 2 타이디버스 패키지 함수들을 활용한 데이터 관리
CHAPTER 01 데이터 관리
CHAPTER 02 변수 관리
CHAPTER 03 데이터 형태 변환
CHAPTER 04 데이터 합치기
PART 3 기술통계분석 및 분석결과 시각화
CHAPTER 01 count( 함수를 이용한 빈도분석 및 분석결과의 시각화
CHAPTER 02 summarize( 함수를 이용한 기술통계분석 및 분석결과의 시각화
PART 4 일반선형모형(GLM 추정
CHAPTER 01 종속변수와 독립변수, 두 변수의 관계를 다루는 통계기법
CHAPTER 02 분산분석(ANOVA과 공분산분석(ANCOVA
CHAPTER 03 회귀분석: 종속변수가 정규분포를 갖는 경우
CHAPTER 04 회귀분석: 종속변수가 비정규분포를 갖는 경우
PART 5 개념측정의 신뢰도와 타당도, 그리고 데이터의 축약
CHAPTER 01 측정의 신뢰도와 타당도
CHAPTER 02 군집분석(비지도 기계학습
PART 6 마무리
CHAPTER 01 비정형 텍스트 데이터 소개
CHAPTER 02 기타 사항들
참고문헌
함수 찾아보기
데이터 관리·분석의 새로운 세계를 보여주는 타이디버스 안내서!
타이디버스(tidyverse란, ‘타이디데이터(tidy data 형태를 데이터 분석 및 시각화의 표준으로 하는, 데이터 접근법들로 구성된 세계’라고 볼 수 있다. 타이디데이터는 3가지 규칙을 지닌다. ‘① 하나의 변수는 하나의 세로줄을 형성한다. ② 하나의 사례는 하나의 가로줄을 형성한다. ③ 하나의 변수의 종류별로 하나의 표를 형성한다’가 그것이다. 사실 이 3가지 규칙은 그리 놀라운 것은 아니다. 일반적으로 우리가 접하는 데이터는 대개 이 규칙들을 따르기 때문이다. 그러나 문제는 데이터 과학에서 다루는 적지 않은 데이터들이 이 규칙을 전면적으로 혹은 부분적으로 따르지 않은 채 ‘정리되지 않은 데이터(uncleaned data’ 혹은 ‘지저분한 데이터(messy data’로 남아 있으며, 그로 인해 실질적인 데이터 분석이 이루어지지 못한다는 점이다.
이 책은 연구자들로 하여금 정리되지 않은 방대한 양의 데이터를 위의 3가지 규칙에 따라 기술통계분석, 모형추정, 분석결과의 시각화를 할 수 있는 형태로 정리하여 타이디데이터 형태로 정리하는 방법을 안내해준다. 아울러 타이디버스 라이브러리의 여러 함수들과 그 활용방법을 소개함으로써 독자들이 효율적·효과적으로 데이터를 관리·분석하고 실질적인 분석결과를 도출할 수 있도록 이끌어준다 !
R 기반 데이터 과학의 진보, 타이디버스 접근법!
오늘날 R 이용환경은 급속하게 변화하고 있다. 그러나 환경이 변했다고 해서 R을 이용하는 것이 더 어려워진 것은 아니다. R 환경은 더 많은 양의 데이터, 더 다양한 형태의 데이터를 보다 쉽게 다루고 분석할 수 있도록 변해가고 있으며, 이 발전적 변화를 주도하고 있는 패키지가 바로 ‘타이디버스(tidyverse’이다.
‘타이디버스 접근법’을 쓰기 위해 기존의 R 프로그래밍 습관을 버릴 필요는 없다. 상황에 따라서는 타이디버스 접근법을 따르는 것보다 R 베이스에 기반해 데이터를 분석하는 것이 더 효율적이기도 하다.