프롤로그
‘통계학’이 뭐지? ―‘돈’과 ‘노동력’의 낭비를 막는다!
통계학에 대해 사람들이 ‘오해하는 것’
전부를 조사하지 않아도 전체상을 어느 정도 알 수 있다
통계학은 ‘편향되지 않을 것’이 전제
편향된 데이터가 필요할 때도 있다
무작위는 의외로 어렵다
과부족 없이 하기도 어렵다
1장 히스토그램, 평균값, 분산, 표준편차
―‘통계학’은 여기서부터 시작하자!
가장 대중적인 통계학 ‘히스토그램’
누구나 할 수 있는 주사위 히스토그램
‘도수’와 ‘계급값’이란 무엇인가
평균값, 분산을 계산해보자
통계학에서 ‘평균값’을 구하는 방법
데이터가 퍼진 상태를 나타내는 ‘분산’
직접적인 수치를 나타내는 표준편차
편찻값을 계산하는 방법을 알고 있나?
편찻값이 무엇일까?
편찻값을 계산해보자
표준편차로 편찻값이 오른다? 내린다?
단 한 번의 시험으로 학력을 측정할 수는 없다
2장 정규분포
―가장 대중적인 ‘분포의 왕’
‘정규분포’란 무엇일까?
좌우대칭의 산처럼 생긴 그래프
어떤 데이터가 정규분포를 그리는가
평균값과 분산이 중요한 이유
가우스가 증명한 표준정규분포
‘오차’란 무엇인가
표준정규분포는 왜 특별한가
데이터를 ‘정규화’한다
정규분포가 통계학을 수월하게 하는 이유
통계학은 먼저 ‘가정’을 한다
3장 이항분포
―세상의 ‘온갖 현상’이 여기에 있다
이항분포란 무엇인가?
이항분포는 확률분포의 일종이다
이항분포를 이해하기 위한 전제 ‘조합’
‘조합’과 ‘순열’을 알아보자
‘조합’이란?
순열이란?
조합은 ‘중복’, 순열은 ‘별개’라고 생각한다
수학은 공식을 몰라도 풀 수 있다
주사위를 이용해서 이항분포를 이해하자
베르누이 시행이란 무엇인가
여러 가지 값의 범위 ‘확률변수’
주사위로 해석하는 ‘이항분포’
이항분포 정리식을 이해하자
4장 정규분포와 이항분포
―중요한 아 두 분포는 어떤 관계인가?
통째로 외우면 좋은 ‘중심극한정리’
‘중심극한정리’란 무엇인가?
우리는 아직 통계학의 문 앞에 있다.
수학 문제가 풀렸을 때 느끼는 짜릿한 쾌감이 좋다.
이 세상의 원리와 돈의 흐름, 사람들의 행동을 숫자와 공식으로 표현할 수 있다. 수학은 즐겁고 아름다운 분야다. 하지만 세상에는 수학을 싫어하는 사람이 많다. 공식을 보면 지레 겁을 먹고 숫자가 나열되면 ‘하나도 모르겠다’고 말한다. 그렇게 숫자를 싫어하는 사람들이 통계학에 대해 알고 싶을 때, 무엇을 어떻게 전하면 통계학 일부라도 알게 할 수 있을지 고민하면서 이 책을 썼다. 숫자를 보고 의욕을 잃지 않도록 공식을 이해할 수 없어서 통계학 배우기를 포기하지 않도록 정말 하나하나 곱씹어가며 설명했다. 독자 여러분의 정신을 어지럽히는 수학적 표현이나 기호도 최소한도로 기재했다. 이 책을 다 읽은 여러분은 지금 통계학이라는 학문의 문 앞에서 문고리를 잡고 서 있는 상황이다. 아직 우리는 입구에 있는 것이다. 그 문을 열면 미지의 세계를 예측하거나 아직 보이지 않는 미래를 상정할 수 있는 아름다운 세상이 펼쳐진다. 그러나 그 아름다움을 이해하려면 수학을 알아야 한다. 수학과 마주할 각오가 있다면, 그 문을 열고 들어가자. 좌절할 때도 많겠지만 그래도 얻는 것이 있을 것이다. 각오가 서지 않는다면 여기까지만 하자. 그래도 충분하다. 나는 ‘이유를 모르겠다’며 포기하는 것을 좋아하지 않는다. 하지만 수학만큼은 예외다. 모르는 사람은 모르기 때문이다. 수학은 어느 정도 재능이 필요한 분야이다. ‘모르겠다’는 현실을 받아들이는 것도 중요하다.
전부를 조사하지 않아도
전체상을 어느 정도 알 수 있다.
전수 조사를 하지 않아도 샘플 수가 많으면 실제 시청률을 알 수 있을까? 샘플 수만 충분하면 통계학을 이용해서 전체상을 완벽하게 파악할 수 있을까? 엄밀하게 말하자면 그렇지 않다. 샘플 조사와 전수 조사에는 아무리 해도 차이가 생기기 때문이다. 그 차이를 0으로 할 수는 없다. 그러나 통계학을 이용하면, “이 정도로 샘플을 모으면 실제 값과 ±1% 차이가 난다.” “이 정도로