도서상세보기

도서명 파이썬 데이터 클리닝 쿡북 : 파이썬과 판다스를 활용한 데이터 전처리
저자 마이클 워커
출판사 위키북스
출판일 2021-11-19
정가 28,000원
ISBN 9791158392789
수량
▣ 01장: 표 데이터를 판다스로 가져올 때의 데이터 정제
___1.1 CSV 파일 가져오기
___1.2 엑셀 파일 가져오기
___1.3 SQL 데이터베이스의 데이터를 가져오기
___1.4 SPSS, Stata, SAS 데이터 가져오기
___1.5 R 데이터 가져오기
___1.6 표 데이터 저장

▣ 02장: HTML과 JSON을 판다스로 가져올 때의 데이터 정제
___2.1 단순한 JSON 데이터 가져오기
___2.2 API를 통해 복잡한 JSON 데이터 가져오기
___2.3 웹페이지의 데이터 가져오기
___2.4 JSON 데이터 저장

▣ 03장: 데이터 측정
___3.1 처음 데이터를 훑어보기
___3.2 열을 선택하고 정돈하기
___3.3 행을 선택하기
___3.4 범주형변수의 빈도를 생성하기
___3.5 연속변수의 요약통계 생성하기

▣ 04장: 데이터의 부분집합에서 누락값과 이상값 식별
___4.1 누락값 찾기
___4.2 변수가 1개인 이상값 식별하기
___4.3 이변량 관계의 이상값과 예상치 못한 값 식별하기
___4.4 부분집합을 이용해 변수 간의 논리적 불일치를 찾기
___4.5 선형 회귀를 활용해 유의한 영향을
___4.6 k-최근접 이웃을 활용해 이상값을 찾기
___4.7 아이솔레이션 포레스트를 활용한 이상 탐지

▣ 05장: 시각화를 활용해 예상치 못한 값을 식별하기
___5.1 히스토그램을 활용해 연속변수의 분포를 조사하기
___5.2 박스플롯을 활용해 연속변수의 이상값을 식별하기
___5.3 그룹별 박스플롯으로 특정 그룹에서 예상치 못한 값을 드러내기
___5.4 바이올린 플롯으로 분포 형태와 이상값을 조사하기
___5.5 산점도를 활용해 이변량 관계를 보기
___5.6 라인 플롯으로 연속변수의 추세를 조사하기
___5.7 상관행렬을 기반으로 히트맵을 작성하기

▣ 06장: 데이터 정제, 탐색 및 시리즈 연산
___6.1 판다스 시리즈에서 값을 얻기
___6.2
★ 이 책에서 다루는 내용 ★

◎ 다양한 데이터 소스로부터 데이터를 읽고 분석하는 법
◎ 데이터프레임, 열, 행의 어트리뷰트를 요약하는 법
◎ 데이터를 필터링하고 주어진 요건을 충족하는 열을 선택
◎ 날짜, 누락값이 있는 데이터 등 지저분한 데이터를 다루기
◎ 메서드 체이닝으로 파이썬 판다스 작업 생산성을 향상
◎ 시각화를 통해 통찰을 얻고 잠재적인 데이터 이슈를 식별
◎ 데이터의 변동을 파악하는 능력을 향상
◎ 사용자 정의 함수 및 클래스를 작성해 데이터 정제를 자동화