Part 1 Intro
1 구글 코랩 & 캐글
1.1 구글 코랩(Colaboratory에 관해
1.2 캐글(Kaggle에 관해
2 파이썬 기초 문법
2.1 변수(Scalar
2.2 변수(Non-Scalar
2.3 리스트(List
2.4 튜플(Tuple
2.5 딕셔너리(Dictionary
2.6 집합(Set 자료형
2.7 파이썬의 조건문
2.8 파이썬의 반복문
2.9 정리
3 Numpy
3.1 NumPy 기본 문법
3.2 NumPy 배열 생성 및 둘러보기
3.3 NumPy 인덱싱과 슬라이싱
3.4 NumPy 정렬
3.5 정리
4 Pandas 라이브러리
4.1 Pandas 설치
4.2 구글 드라이브와 연동
4.3 데이터 둘러보기
4.4 데이터 다뤄 보기
4.5 데이터 인덱싱
4.6 기본 데이터 전처리
4.7 정리
5 파이썬 시각화
5.1 Matplotlib 라이브러리
5.2 Seaborn 라이브러리
5.3 Intermediate Level 도전
5.4 정리
6 머신러닝의 역사
7 캐글에서 사용되는 다양한 머신러닝 알고리즘
7.1 지도 학습과 비지도 학습
7.2 회귀 모형
7.3 의사 결정 나무
7.4 앙상블 학습
7.5 배깅(Bagging
7.6 랜덤 포레스트(Random Forest
7.7 부스팅 기법(Boosting Methods
7.8 스태킹 또는 블렌딩 기법(Stacking or Blending Methods
7.9 사이킷런(Scikit-Learn
7.10 정리
Part 2 Kaggle Basic
1 캐글 노트북(Kaggle Notebook에 관한 흥미로운 토론
2주택 가격 예측 문제
2.1 Kaggle API 다운로드
2.2 Kaggle API 업로드
2.3 Kaggle 데이터 다운로드 및 불러오기
2.4 데이터 둘러보기
2.5 머신러닝 Workflow
2.6 Feature Engineering
2.7 머신러닝 모형 학습 및 평가
3 진짜 재난 뉴스 판별
이 책의 특징
- 다양한 캐글 대회 참여 방법 소개
- NumPy, Pandas, Matplotlib, Seaborn, Scikit-Learn 등 데이터 과학의 필수 라이브러리 소개
- XGBoost, LightGBM, CatBoost 등 최신 알고리즘 소개
이 책이 필요한 독자
- 데이터 분석에 관심이 많고 데이터 분석가로 취업 및 전직을 하고 싶은 모든 비전공자
- 캐글을 포함한 각종 경진 대회에 직접 참여하고 싶은 분들
- 업무 협업을 위한 기초적인 Git, Linux, Github 블로그 활용법이 궁금한 분들
소스코드 다운로드
https://github.com/bjpublic/pythonkaggle
이 책의 주목적은 코딩을 처음 접하는 사람이 데이터 분석 및 머신러닝을 수행하는 데 필요한 기본 문법을 익혀서 캐글 대회에 참여할 수 있는 역량을 키워 주는 동시에, 취업 포트폴리오를 만드는 일련의 과정을 포함합니다. 입문자분들을 대상으로 한 책이다 보니, 통계 및 머신러닝의 어려운 알고리즘 수식은 최대한 배제하고 설명하고 있습니다.
입문자가 어려움 없이 개념에 대한 이해를 하도록 최대한 노력하였는데, 이 책은 각 분야에 대하여 상세하게 설명한 책이라기보다는 데이터 분석가 및 머신러닝 개발자로 성장하는 데 필요한 부분들을 설명해 놓은 일종의 가이드북입니다. 저자의 철학대로 손으로 몸으로 체득해보시기 바랍니다.