PART 1. 판다스 입문
1. 데이터과학자가 판다스를 배우는 이유
2. 판다스 자료구조
2-1. 시리즈
2-2. 데이터프레임
3. 인덱스 활용
4. 산술연산
4-1. 시리즈 연산
4-2. 데이터프레임 연산
PART 2. 데이터 입출력
1. 외부 파일 읽어오기
1-1. CSV 파일
1-2. Excel 파일
1-3. JSON 파일
2. 웹(web에서 가져오기
2-1. HTML 웹 페이지에서 표 속성 가져오기
2-2. 웹 스크래핑
3. API 활용하여 데이터 수집하기
4. 데이터 저장하기
4-1. CSV 파일로 저장
4-2. JSON 파일로 저장
4-3. Excel 파일로 저장
4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장
PART 3. 데이터 살펴보기
1. 데이터프레임의 구조
1-1. 데이터 내용 미리보기
1-2. 데이터 요약 정보 확인하기
1-3. 데이터 개수 확인
2. 통계 함수 적용
2-1. 평균값
2-2. 중간값
2-3. 최대값
2-4. 최소값
2-5. 표준편차
2-6. 상관계수
3. 판다스 내장 그래프 도구 활용
PART 4. 시각화 도구
1. Matplotlib - 기본 그래프 도구
1-1. 선 그래프
1-2. 면적 그래프
1-3. 막대 그래프
1-4. 히스토그램
1-5. 산점도
1-6. 파이 차트
1-7. 박스 플롯
2. Seaborn 라이브러리 - 고급 그래프 도구
3. Folium 라이브러리 - 지도 활용
PART 5. 데이터 사전 처리
1. 누락 데이터 처리
2. 중복 데이터 처리
3. 데이터 표준화
3-1. 단위 환산
3-2. 자료형 변환
4. 범주형(카테고리 데이터 처리
4-1. 구간 분할
4-2. 더미 변수
5. 정규화
6. 시계열 데이터
6-1. 다른 자료형을 시계열 객체로 변환
6-2. 시계열 데이터 만들
너도 할 수 있어, 판다스!
사회적으로 데이터 분석에 대한 관심이 커지면서 머신러닝에 입문하려는 사용자들도 늘어났다. 하지만 복잡하고 어려운 고급적인 수학과 통계학 이론 도서들로는 금방 포기하게 된다. 이 책의 저자는 독학으로 공부한 만큼 여러 시행착오를 겪으며 초보자의 입장을 제일 잘 이해하므로 쉽게 알려주는 방식으로 안내하고 있다.
판다스 라이브러리는 데이터를 수집하고 정리하는데 최적화된 도구인데, 오픈소스라는 장점도 갖고 있다. 또한 배우기 쉬운 파이썬을 기반으로 하기 때문에 전공자가 아니라도 쉽게 따라하며 배우는 것이 가능하다. 판다스는 데이터 분석에 필요한 두 가지 종류의 기본 데이터 시리즈와 데이터프레임을 제공한다. 이를 활용하여 데이터의 입출력부터 머신러닝 데이터 분석까지 직접 응용하며 실력향상을 할 수 있기 바란다.