Part1. 다양한 인터넷 데이터 수집 자동화
····Chap 01_웹 크롤링을 위한 환경설정과 자동 검색 구현 _
········01. 웹 크롤링의 원리
········02. 웹 크롤링을 위한 설정
············1. 사람 대신 웹 페이지를 열고 데이터를 수집할 selenium 패키지를 설치하기
············2. selenium 패키지가 사용할 웹 브라우저 프로그램(웹 드라이버을 설치하기
········03. 검색창에 검색어를 입력 후 자동 검색하기 기능 구현하기
············1. 작업 개요
············2. 일단 실행하기
············3. 소스코드 설명
············4. 개발자 도구 사용하기
········04. 연습문제로 실력굳히기
····Chap 02_Beautiful Soup로 원하는 값 추출 후 저장하기
········01. Beautiful Soup(뷰티풀 수프 역할과 설치하기
········02. Beautiful Soup를 사용하여 데이터 추출하기
············1. find( 함수 : 주어진 조건을 만족하는 첫 번째 태그 값만 가져오기
············2. find_all( 함수 : 해당 태그가 여러 개 있을 경우 한꺼번에 모두 가져오기
············3. select( 함수 사용하기
············4. 태그 뒤의 텍스트만 추출하기
········03. 수집된 내용을 txt 형식의 파일로 저장하기
········04. 연습문제로 실력굳히기
····Chap 03_항목별 내용 추출 후 다양한 형식의 파일로 저장하기
········01. 이번 장에서 배울 내용 소개
········02. 일단 실행해 보기
········03. 소스코드 설명
········04. 연습문제로 실력굳히기
····Chap 04_상세 정보 수집 후 다양한 형식의 파일로 저장하기
········01. 이번 장에서 배울 내용 소개
··
먼저 Part 1에서 Chap 1 - Chap 4에서는 학술 논문 관련 정보를 찾을 때 아주 많이 사용되는 riss 사이트를 활용해서 웹 크롤링의 원리를 설명하고 있습니다.
(참고: 웹크롤링의 원리를 더 많은 예제들을 사용해서 자세하고 공부하고 싶은 분들은 아래의 완친파 웹크롤러 대마왕편 책을 참고하세요~
그리고 Chap 5 - Chap 9 까지는 현업이나 실무에서 데이터 수집이 많이 요구되는 사이트들을 예제로 웹크롤러를 만드는 방법을 안내하고 있습니다.
먼저 Chap 5에서는 언론 정보를 수집하는 내용을 다음카카오 사이트의 랭킹 뉴스를 추출하는 내용으로 코드를 설명합니다. 그 후 한겨레신문과 빅카인즈 사이트의 뉴스를 수집하는 연습문제를 풀어 봄으로써 언론 정보를 수집하는 스킬을 마스터하게 됩니다.
그리고 Chap 6에서는 SNS 정보를 수집하는 주제로 인스타그램 사이트의 정보를 수집하는 내용을 다루고 있습니다. 인스타그램 사이트에 로그인을 자동으로 하고 해시태그를 자동으로 검색한 후 검색된 데이터에서 해시태그와 사진을 수집하는 방법을 자세하게 설명하고 있습니다.
Chap 7에서는 인터넷 쇼핑몰의 데이터를 수집하는 내용을 주제로 현재 많은 고객들을 확보하고 있는 쿠팡 사이트의 정보를 수집하고 있습니다.
특정 카테고리를 조회하여 제품 목록을 검색하고 가격이나 할인율, 배송, 평점 등의 다양한 정보를 수집하여 저장하는 데 이때 엑셀 파일로 자동으로 저장하면서 상품 이미지까지 아래와 같이 깔끔하게 저장하는 방법을 자세하게 안내하고 있습니다.
이 챕터에서 다루는 내용을 모두 이해하신다면 지구상에 존재하는 대부분의 인터넷 쇼핑몰 정보는 다 수집할 수 있을거예요
Chap 8에서는 공인 인증서를 이용하여 로그인하는 사이트의 정보를 수집하는 것을 주제로 국세청 홈택스 사이트에 자동으로 로그인 한 후 세금 계산서 발행 내역을 엑셀 형태로 다운로드 받는 것을 설명하고 있습니다. 이 기술은 실제 상용 서비스들에 많이 사용되고 있고 돈이 되기 때