| 기초편 |
I. 빅데이터 개요 및 파이썬 프로그래밍
1. 빅데이터 기술
1.1 빅데이터 분석 이해
2. 빅데이터 분석 사례
2.1 유통 분야 사례
2.2 고객 관리 사례
2.3 기타 사례
3. 빅데이터 분석 방법
3.1 빅데이터 분석
4. 파이썬 개발 환경 구축
4.1 파이썬을 왜 배워야 할까요?
4.2 개발환경 구축
II. 파이썬 기초 다지기
1. 자료형
1.1 수(Number
1.2 문자열(String
1.3 리스트(List
1.4 튜플(Tuple
1.5 딕셔너리(Dictionary
2. 파이썬 라이브러리 설치하기
2.1 넘파이(Numpy
2.2 판다스(Pandas
3. 파이썬 핵심 문법
3.1 반복하기
3.2 조건 판단하기
3.3 자주 사용하는 내용 함수화하기
3.4 추가 제어 로직
3.5 예외 처리
III. 데이터베이스 이해 및 ETL 실습
1. 데이터베이스 이해
1.1 데이터베이스란?
1.2 데이터베이스 구성 및 언어
2. 데이터베이스 개발환경 구축
2.1 PostgreSQL DB 설치
3. 데이터 수집 및 저장
3.1 파일 데이터 수집 및 저장
3.2 데이터베이스 데이터 수집 및 저장
| 기본편 |
IV. 외부 연동 데이터 수집
1. 웹 크롤링 활용 데이터 수집
1.1 BeautifulSoup 및 웹페이지 이해
1.2 라이브러리 선언 및 HTML 소스 불러오기
1.3 태그 정보 수집하기
1.4 테이블 정보 수집하기
1.5 셀레니움 활용 웹브라우저 자동화
2. 공공데이터 포털 데이터 수집
2.1 공공데이터 포털 파일 데이터 불러오기
2.2 국가통계포털 API 데이터 불러오기
2.3 공공데이터 포털 API 데이터 불러오기
V. 데이터 분석 및 데이터 전처리
1. 데이터야 놀자
1.1 원하는 행 조회하기
이 책은 저자가 기업 내 데이터 분석팀에서 업무를 수행하며 느낀 점들을 바탕으로 데이터 분석 업무를 처음 시작하는 사람도 실무에서 필요한 기술을 쉽고 친숙하게 이해될 수 있도록 단계별로 실습하며 나아가도록 설계했다. 실습 환경은 2020년도 2월 기준 아나콘다(파이썬 수학/과학 라이브러리 설치 환경에서 수행한다. 파이썬과 데이터를 활용하여 대화하기 위하여 우리가 처음 한국어를 배울 때 가나다라를 먼저 배우듯 파이썬 언어의 자료 형태와 문법 구조를 배운다. 이후 데이터 분석의 첫걸음으로 다양한 방법으로 데이터를 수집할 수 있는 방법을 학습한다.
중반에는 파이썬이 인공지능 시대에 빠르게 치고 올라올 수 있었던 강력한 라이브러리 사용법을 데이터 시각화, 이미지 처리를 실습하면서 알아본다. 데이터의 인사이트를 빠르게 도출하기 위하여 스프레드시트 형태의 데이터를 시각화하여 데이터의 특성을 빠르게 찾아가는 방법과 OpenCV 라이브러리를 활용하여 기계에 이미지 데이터를 학습 시킬 때 어떠한 이미지 처리가 적용되는지를 알아본다.
후반에는 수집한 데이터를 활용하여 논문에서 찾은 알고리즘이나 자신의 아이디어를 개발할 수 있도록 2020년도 1월 업데이트된 Pandas 1.0 기반 데이터 조작 방법을 학습하여 통계적 방법으로 문제를 풀어가는 방법을 학습한다. 마지막으로 통계적으로 문제를 해결하지 않고 파이썬이 알아서 문제를 학습한 후 결과를 도출하는 머신러닝 방법을 다룬다. 전반적으로 데이터를 어떻게 수집하고 가공하는지 그리고 가공한 데이터를 어떻게 분석하는지에 포커스를 두었기 때문에 기본 파이썬 도서에서 다루는 클래스 등의 주제는 이 책에서 다루지 않는다.
본 책의 목표는 IT 관련 비전공자들도 데이터를 활용한 모델 개발 시 두려움 없이 빅데이터 분석/인공지능 영역에 쉽게 자리 잡게 하기 위함이며, 웹/앱 개발보다도 분석 시 필요한 부분을 중심으로 다루었다.