1부 ― 데이터 분석을 제대로 하려면
1. 분석의 목적 정의 - 나는 어떤 필요 때문에 데이터를 활용하는지 알아야 한다
2. 가장 좋은 분석이란 - 문제를 정의하고 상황에 맞는 분석 기술을 아는 것이 중요하다
3. 데이터 분석, 꼭 알아야 할 15가지 - 측정, 분석, 수집에 대해 꼭 알아야 하는 15가지를 기억하자
4. 진짜 좋은 데이터란? - 나의 데이터와 남의 데이터를 구별할 줄 알아야 한다
5. 분석 결과의 진실성 - 데이터 분석의 결과는 완벽하게 실제를 대변할 수 없다
6. 데이터의 상관관계, 인과관계 - 데이터 변수들 사이의 관계를 파악하는 인사이트가 중요하다
7. 데이터 사이언스의 한계 - 데이터 사이언스는 통계학의 한계를 벗어날 수 없다
2부 ― 데이터 사이언스의 오해와 진실
8. 언제까지 빅데이터? - 지금의 빅데이터가 미래에는 스몰데이터가 될 수 있다
9. 데이터 지상주의 - 데이터를 이용한 주장에는 신뢰성 이슈에서 자유로울 수 없다
10. 데이터는 잘못이 없다 - 똑같은 데이터라도 보는 관점에 따라 해석은 달라진다
11. 데이터로 미래 예측이 가능? - 데이터는 예측이 아니라 패턴을 알려준다
12. 데이터 없이 문제 해결하기 - 가장 최고의 해결책은 데이터 없이 해결하는 것이다
13. 데이터 사이언스는 과학이 아니다 - 데이터의 대표성이라는 한계를 명확히 알아야 한다
14. 도박과 확률이 다른 점 - 도박은 예측이지만 확률의 본질은 관리(매지니먼트이다
15. 실패한 기업에 다시 투자하는 이유 - 성공 가능성이라는 확률에 투자하는 것이다
3부 ― 데이터 사이언스 더 잘하기
16. 효용성 높이기 - 문제의 본질에 맞는 적절한 자원과 분석 도구가 중요하다
17. 수학적 사고의 중요성 - 잘못된 의사결정을 피하기 위해 데이터 리터러시가 필요하다
18. 나의 데이터 리터러시 - 나의 데이터 리터러시 수준을 측정해보자
19. 인지적 편향 깨기 - 인지적 편향을 깨는 데 필요한 것이 데이터 리터
좋은습관연구소의 36번째 습관은 “데이터를 읽는 습관”입니다. 작가는 데이터 읽는 습관으로 인문학적 소양 쌓기를 주장합니다. 그리고 수학자 출신답게 이를 뒷받침 하는 증명(?으로 데이터에 관한 오해와 진실이 무엇인지 하나씩 소개합니다.
그 중 몇 가지를 소개하면 다음과 같습니다.
1. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 낫다.
2. 데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실에 가까운 추정치일 뿐이다.
3. 데이터 없이 분석결과를 얻을 수 있다면 그것이 최선이다.
4. 데이터 분석을 할 때 자주 하는 실수 중 하나가 ‘나의 데이터’ ‘남의 데이터’를 구분하지 못하는 것이다.
5. ‘당선 확률’은 당선의 미래를 예측하는 것이 아니라 미래의 오차 범위를 말하는 것이다. 그래서 “미래를 정확히 예측한다”는 말을 해서는 안 된다.
6. 데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다.
7. 분석에만 치중하다 보면 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다. 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. 통찰은 결국 해당 문제 영역의 경험에서 나온다.
8. 데이터 리터러시 역량을 키운다는 것은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것을 말한다.
9. 지금의 빅데이터가 몇 년 뒤에는 일반 데이터가 될 수도 있다. 그러니 빅데이터가 뭔가 대단한 것이라고 착각해서는 안 된다.
10. 인공지능이 표본화된 데이터를 학습한 만큼, 인공지능이 생성한 답이 반드시 진리일 수는 없다. 갈릴레오 시대의 인공지능이라면 “지구는 돈다”라고 말할 것이다.
11. 데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자.
12. 문제의 본질을 읽는 것, 그래서 문제를 풀기