들어가기 앞서
저자 소개
역자의 말
역자 소개
제1장 데이터 사이언스란? ― 데이터와 사회 ―
1-1 데이터와 사회
1 우리의 일상 생활과 데이터
2 다가온 데이터화 사회
1-2 데이터 사이언스와 데이터 사이언티스트
1 데이터 사이언스는 다양한 정의가 가능한 과학
2 데이터 해석의 4가지 공정
3 데이터 사이언티스트의 업무
제2장 데이터를 알자 ― 데이터 해석의 제1공정 ―
2-1 데이터 타입을 분류한다
1 조사 데이터와 비조사 데이터
2 빅데이터와 비(非빅데이터
2-2 데이터 특징을 잡아라
1 변수와 데이터
2 양적 데이터와 질적 데이터
3 개표(個票 데이터와 집계 데이터
2-3 데이터를 준비한다
1 조사에 의한 데이터 수집
2 웹에서 데이터 수집
2-4 데이터를 정형화한다
1 데이터를 정형화하는 것은
2 완전 데이터와 불완전 데이터
3 이상치
4 선택 편향(Bais
제3장 데이터 읽기― 데이터 해석의 제2공정 ―
3-1 데이터를 집계하고 가시화한다
1 데이터 분포를 파악한다
2 다양한 그래프
3-2 데이터 정보를 요약한다
1 데이터 정보를 얻는다
2 1변수 데이터의 특징을 알다
3 2변수의 관계를 발견한다
4 다차원 데이터의 관계를 파악한다
5 결론을 일반화하기 위해서
제4장 데이터를 분류하다― 데이터 해석의 제3공정 ―
4-1 비슷한 것들을 분류한다
1 클러스터 분석의 사고방식
2 클러스터 분석으로 분류한다
4-2 복수 변수를 합성한다
1 주성분 분석의 사고방식
2 주성분 분석으로 분류한다
4-3 질적 데이터를 분석하다
1 수량화Ⅲ류의 사고방식
2 수량화Ⅲ류로 분석한다
제5장 데이터로부터 예측한다― 데이터 해석의 제4공정 ―
5-1 데이터에 기반해서 예측한다
1 회귀분석의 사고방식
2 회귀분석으로 예측한다
5-2 예측의 질을 평가한다
1 다중회귀분석의 사고방식
2 좋은 회귀모델이란
3 다양한 회귀진단
5-3
“어려운 수식 없이, 그림과 표로 쉽게 이해하는 데이터 사이언스”
겉보기에는 유사한 숫자 배열에 불과한 데이터라도 경제 데이터와 의학 데이터에서는 작성 방법이나 취급하는 방법이 전혀 다르고, 의미와 해석도 다르다. 이처럼 데이터 성질의 차이를 중시하는, 즉, ‘데이터 중시’라는 시점을 데이터 사이언스에서는 무엇보다 중요하다고 하는 것이 이 책의 기본적인 생각이다. 따라서 정보통신기술의 활용은 어디까지나 이러한 일련의 프로세스를 효율적으로 수행하기 위한 ‘조연’에 불과하다.
이런 목적을 달성하기 위해 책에서는 다음과 같이 서술하였다.
1 ‘데이터 중시’라는 사고방식으로, 데이터 타입 및 특징에 관련된 데이터 수집 방법을 하나의 장을 할애해 자세히 설명했다.
2 데이터 사이언스의 요점은 데이터 해석 방법에 있다. 책에서는 슈퍼마켓에 근무하는 마케팅 담당 A씨, 세미나에서 지역 연구하는 대학생 B씨, 지역 건강 문제에 관심이 많은 보건사 C씨의 사례를 들었으며, 각자의 연구를 통해 데이터 해석 방법의 목적과 결과 해석을 설명한다. 또한 수학에 대한 예비지식이 없어도 이해할 수 있도록 수학적 전개는 생략한다.
3 데이터 해석 방법을 분류 방법과 예측 방법으로 나눠, 대표적인 양적 데이터와 질적 데이터를 다루는 방법을 각각 다룬다.
4 사고방식과 계산 결과의 해석을 중심으로 데이터 해석 방법을 설명하지만 데이터 해석을 실제로 체험하는 일도 중요하다. 그렇기에 책에서 소개하는 방법 중에 Excel로 간단하게 계산할 수 있는 경우 대응하는 함수 및 분석 툴 사용 방법을 설명한다.
5 데이터 사이언스는 데이터가 전부라 해도 과언이 아니다. 수학적으로 의심스러운 어떠한 데이터 해석 방법을 적용하더라도, 데이터를 개조하거나 날조하면 알 수가 없다. 이를 위해 하나의 장을 할애해 데이터 개조 사례와 윤리 규범을 설명한다.
6 책에서는 빅데이터만이 데이터 사이언스의 대상이 아니라고 하지만, 빅데이터 역시 데이터 사이언스의 중요한 대상이다.