도서상세보기

도서명 Apache Airflow 기반의 데이터 파이프라인
저자 바스 하렌슬락 외공저
출판사 제이펍
출판일 2022-03-16
정가 36,000원
ISBN 9791191600681
수량
옮긴이 머리말 xiii
번역서 추천사 xv
베타리더 후기 xvii
원서 추천사 xix
시작하며 xx
감사의 글 xxii
이 책에 대하여 xxiv
표지에 대하여 xxviii

PART I 기본편
CHAPTER 1 Apache Airflow 살펴보기 3
1.1 데이터 파이프라인 소개 4
1.1.1 데이터 파이프라인 그래프 4
1.1.2 파이프라인 그래프 실행 6
1.1.3 그래프 파이프라인과 절차적 스크립트 파이프라인 비교 7
1.1.4 워크플로 매니저를 이용한 파이프라인 실행 9
1.2 Airflow 소개 10
1.2.1 파이썬 코드로 유연한 파이프라인 정의 10
1.2.2 파이프라인 스케줄링 및 실행 11
1.2.3 모니터링과 실패 처리 13
1.2.4 점진적 로딩 및 백필 16
1.3 언제 Airflow를 사용해야 할까 16
1.3.1 Airflow를 선택하는 이유 17
1.3.2 Airflow가 적합하지 않은 경우 17
1.4 이후 내용 18
요약 19

CHAPTER 2 Airflow DAG의 구조 20
2.1 다양한 소스에서 데이터 수집 21
2.1.1 데이터 탐색 21
2.2 첫 번째 Airflow DAG 작성 23
2.2.1 태스크와 오퍼레이터 차이점 27
2.2.2 임의 파이썬 코드 실행 27
2.3 Airflow에서 DAG 실행하기 30
2.3.1 파이썬 환경에서 Airflow 실행 30
2.3.2 도커 컨테이너에서 Airflow 실행하기 31
2.3.3 Airflow UI 둘러보기 32
2.4 스케줄 간격으로 실행하기 36
2.5 실패한 태스크에 대한 처리 37
요약 40

CHAPTER 3 Airflow의 스케줄링 41
3.1 예시: 사용자 이벤트 처리하기 41
3.2 정기적으로 실행하기 43
3.2.1 스케줄 간격 정의하기 43
3.2.2 Cron 기반의 스케줄 간격 설정하기 45
3.2.3 빈도 기반의 스케줄 간격 설정하기 47
3.3 데이터 증분 처리하기
○책 속으로

이 책은 데이터 파이프라인을 처리하기 위한 배치 태스크에 중심을 둔 Apache Airflow에 초점을 맞추고 있습니다. Airflow의 주요 기능은 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해 주며, 최신 기술 환경에서 접하게 되는 서로 다른 기술들을 연결할 수 있는 다양한 빌딩 블록을 제공하는 것입니다. _3쪽

Airflow는 파이썬 스크립트로 DAG의 구조를 설명하고 구성합니다(DAG 파일 안에 파이썬 코드를 사용하여 DAG를 정의함. 따라서 일반적으로 각 DAG 파일은 주어진 DAG에 대한 태스크 집합과 태스크 간의 의존성을 기술하고, Airflow는 DAG 구조를 식별하기 위해 코드를 파싱(parsing합니다(표지 뒷날개 그림 참고. _10쪽

Airflow를 사용하면 임의의 시작 날짜로부터 스케줄 간격을 정의할 수 있으므로 과거의 시작 날짜부터 과거 간격을 정의할 수도 있습니다. 이 속성을 사용하여 과거 데이터 세트를 로드하거나 분석하기 위해 DAG의 과거 기록을 실행할 수 있습니다. 이 프로세스를 일반적으로 백필(backfilling이라고 합니다. _56쪽

모든 오퍼레이터 인수가 템플릿이 될 수 있는 것은 아닙니다. 모든 오퍼레이터는 템플릿으로 만들 수 있는 속성의 허용 리스트를 유지합니다. 기본적으로 {{name}} 문자열은 Jinja에서 템플릿 가능한 속성 리스트에 포함되지 않으면 {{name}} 그대로 문자열로 해석됩니다. 이 리스트는 모든 오퍼레이터의 template_fields 속성에 의해 설정됩니다. _67쪽

트리거 규칙은 태스크의 의존성 기능(= DAG 안에서 선행 태스크 조건과 같이 Airflow가 태스크가 실행 준비가 되어 있는지 여부를 결정하기 위한 필수적인 조건입니다. Airflow의 기본 트리거 규칙은 all_success이며, 태스크를 실행하려면 모든 의존적인 태스크가 모두 성공적으로 완료되어야 함을 의미합니다. _103쪽

태스크는 결정적(deter