도서상세보기

도서명 데이터 과학 효율을 높이는 데이터 클리닝 : 불량 데이터의 문제를 발견하고 해결하는 방법
저자 데이비드 메르츠
출판사 에이콘
출판일 2023-01-31
정가 40,000원
ISBN 9791161757094
수량

1부. 데이터 수집
1장. 테이블 형식
__정리
__CSV
____온전성 검사
____좋은 데이터, 나쁜 데이터, 텍스트 데이터
______나쁜 데이터
______좋은 데이터
__유해하다고 간주되는 스프레드시트
__SQL RDBMS
____데이터 타입 다듬기
____R에서 반복
____SQL이 잘못되는 위치(및 이것을 확인하는 방법
__기타 형식
____HDF5와 NetCDF-4
______도구와 라이브러리
____SQLite
____아파치 파켓
__데이터 프레임
____스파크/스칼라
____판다스와 파생된 래퍼
____Vaex
____R의 데이터 프레임(Tidyverse
____R의 데이터 프레임(data.table
____흥미로운 Bash
__연습
____엑셀 데이터 정리
____SQL 데이터 정리
__대단원

2장. 계층적 형식
__JSON
____JSON의 모습
____NaN 처리와 데이터 타입
____JSON Lines
____GeoJSON
____깔끔한 지리
____JSON 스키마
__XML
____사용자 레코드
____키홀 마크업 언어
__구성 파일
____INI와 플랫 사용자 정의 형식
____TOML
____YAML
__NoSQL 데이터베이스
____문서 지향 데이터베이스
______누락된 필드
______비정규화와 비정규화의 불만
____키/값 저장소
__연습
____채워진 영역 탐색
____관계형 모델 생성
__대단원

3장. 데이터 소스의 목적 변경
__웹 스크래핑
____HTML 테이블
____테이블 형식이 아닌 데이터
____커맨드라인 스크래핑
__PDF
__이미지 형식
____픽셀 통계
____채널 조작
____메타데이터
__바이너리 직렬화된 데이터 구조
__사용자 정의 텍스트 형식
____구조화된 로그
____문자 인코딩
__연습
____NPY 파서 향상
____웹 트래픽 스크래핑
__대단원

2부