[1부] 데이터의 성질에 관한 기초지식
▣ 1장: 관측은 간단하지 않다
1.1 데이터 관측
___대상에서 정보 추출
___쓰레기를 넣으면 쓰레기가 나온다
___데이터의 제약과 표본추출
1.2 측정의 어려움
___필요한 데이터가 전부 수집되는 것은 당연하지 않다
___‘측정할 수 없는 것’을 측정할 때
___측정에 따른 정보의 누락
___관계가 있는 것처럼 보이는 지표를 혼용하지 않는다
___‘표준화’에 따른 정보의 누락
▣ 2장: 오차와 변동
2.1 오차의 분해
___‘오차’란
___오차가 크면 정보가 사라진다
___우연오차와 편향
2.2 오차와 확률분포
___데이터의 변동 파악
___배후에 있는 참 분포를 생각하자
___평균과 분산
2.3 ‘확률분포’ 정리
___수학적 확률과 통계적 확률
___확률분포와 확률밀도
___가장 중요한 확률분포 ‘정규분포’
___확률변수를 서로 더하면 나타나는 정규분포
___경험분포와 이론분포
___오차의 분포와 데이터의 분포
2.4 우연 오차의 변동 처리
___관측값의 평균값을 이용한 변동 억제
___통계적으로 평가한다
___관측수를 늘리는 효과
___편차가 작은 지표에 주목한다
▣ 3장: 데이터에 포함된 편향
3.1 측정기준에 관한 편향
___일관된 측정기준
___일정한 기준의 어려움
___시간적으로 변하는 기준
3.2 선택편향
___‘데이터가 수집되고 있다’라는 의미
___여러가지 선택편향
___우연
3.3 관측 개입에 의한 편향
___‘질문’은 어렵다
___신뢰할 수 없는 대답
___나중에 이유 붙이기
___관측에 따른 개입의 영향
3.4 데이터 취급에 따른 편향
___데이터를 왜곡시키는 동기
___유리한 데이터만 수집
___인위적인 실수
▣ 4장: 중첩요인과 인과관계
4.1 두 변수 간의 관계
___변수의 상관관계
___변수 간의 인과관계란
___상관관계와 인과관계
___변수간의 관계성 정리
4.2 중첩을