Chapter 01 통계학의 철학(The Zen of Statistics
1.1 확률 변수란 무엇인가 11
1.2 확률밀도함수 12
1.3 평균과 분산 15
1.4 중앙값(Median과 IQR 17
1.5 최빈값(Mode과 왜도(Skewness 19
1.6 평균과 분산의 성질 1 21
1.7 평균과 분산의 성질 2 24
1.8 확률 변수의 독립성 28
1.9 공분산과 상관관계 31
1.10 (참고 피어슨 상관계수와 코시-슈바르츠 부등식 33
1.11 모집단과 표본집단 36
1.12 표본분산의 계산 39
1.13 이항 분포와 정규 분포 42
1.14 중심극한정리와 정규 분포에 대한 오개념 45
1.15 유효숫자와 정밀성 47
Chapter 02 가설 검정법(Hypothesis Testing
2.1 오류의 종류 53
2.2 p-value의 의미 55
2.3 p-value의 해석 58
2.4 p-value가 크다면 60
2.5 p-value가 작다면 62
2.6 p-value 시뮬레이션 63
2.7 비율 검정법을 통해 p-value 구하기 64
2.8 단측검정과 양측검정 68
2.9 민감도(Sensitivity와 특이도(Specificity 70
2.10 출간 편향과 깔때기 그림 72
Chapter 03 t-test, F-test
3.1 통계 검정법의 가정 77
3.2 카이제곱 분포 81
3.3 모분산과 표본분산의 관계 83
3.4 t-분포를 사용하는 이유와 그 특징 86
3.5 One-sample t-test와 Paired t-test 88
3.6 F-분포의 정의 91
3.7 여러 그룹에 대한 데이터 비교 93
3.8 Two-sample t-test 96
3.9 t-test의 전제 조건 99
3.10 F-test를 통한 분산의 확인 104
3.11 적합한 통계 방식을 결정하기 106
3.12 신뢰 구간(Confidence interval 108
Chapter 04 일원 분산분석(On
대학원을 다니며 놀랐던 점 중 하나는 많은 연구자들이 통계에 대한 기초지식 없이 데이터를 분석하고 논문을 작성한다는 것이다. 이들은 3개의 실험군 중 두 실험군을 골라 정규성 검정(Normality test도 없이 t-test를 수행하고, 선형 회귀(Linear regression를 수행한 후 잔차(Residual를 분석하지 않는다(만일 이런 행태가 괜찮다고 생각한다면 이 책을 정독할 필요가 있다. 이런 원시적이고 초보적인 수준의 오류는 우리 대학원에 만연해 있으며, 그런 식으로 통계를 돌려 논문을 작성하면 좋은 저널에서는 바로 게재 거부(Rejection 결정을 내릴 것이다. 이걸 작성자 탓만 할 수 없는 게, 대학원에서는 이런 실용적인 통계 기술을 잘 가르치지 않는다. 통계학과에서 여러 수업을 개설하지만, 그런 수업은 대체로 이론적인 면에 치중되어 있다. 애당초 통계학 강사들은 실험 경험이 거의 없는 경우가 많아 수식만 설명할 뿐 현실과 동떨어진 이야기를 자주 한다. 실용 통계를 제대로 가르치기 위해서는 통계 지식을 갖출 뿐만 아니라 직접 실험을 설계, 수행하며 밤새 데이터를 모아보고, 그 데이터로 실험 논문을 작성해 발표한 경험이 있어야 한다. 이런 조건을 갖춘 강의자가 드물기에 논문 작성에 실질적으로 필요한 통계 기술을 배울 기회는 많지 않다. 통계 분석은 연구의 부수적인 부분이 아니라 핵심 요소 중 하나인데, 이를 간과하고 논문을 쓰는 것은 개탄스러운 일이다.
이런 문제의식 속에서 나는 2020년부터 생명과학부 대학원생을 대상으로 실용적인 통계 특강을 진행했다. 수업이 쉽고 친절하다는 입소문을 타면서 서울대학교 화학부와 고양 명지병원에서도 강의 요청이 들어왔다. 통계 특강을 열 때마다 지원자가 많아 모두에게 수강의 기회를 줄 수 없었다. 몇몇 타과 학생은 통계 특강을 수강하고 싶다며 절실함 가득한 메일을 보내기도 했다. 나 또한 제한된 시간에 모든 통계 이야기를 할 수 없어 아쉽기도 했다. 때문에 이런 실용 통계 기술을 더 널리 소개하고 싶어,