CHAPTER 1 애플리케이션 플랫폼
1.1 플랫폼 엔지니어링 문화
1.2 모니터링
1.3 전달
1.4 트래픽 관리
1.5 다루지 않는 주제
1.6 캡슐화
1.7 마치며
CHAPTER 2 애플리케이션 메트릭
2.1 블랙박스 vs 화이트박스 모니터링
2.2 차원형 메트릭
2.3 계층형 메트릭
2.4 마이크로미터의 미터 레지스트리
2.5 미터 생성
2.6 메트릭명
2.7 미터 클래스
2.8 게이지
2.9 카운터
2.10 타이머
2.11 분포 요약
2.12 장기 작업 타이머
2.13 미터 타입 선정
2.14 비용 제어
2.15 조율된 누락
2.16 부하 테스트
2.17 미터 필터
2.18 플랫폼과 애플리케이션 메트릭 분리
2.19 모니터링 시스템에 따른 메트릭 분할
2.20 미터 바인더
2.21 마치며
CHAPTER 3 관찰 가능성과 디버깅
3.1. 관찰 가능성의 세 주축과 두 분류
3.2 분산 추적 컴포넌트
3.3 분산 추적 유형
3.4 샘플링
3.5 분산 추적과 모놀리스
3.6 원격 측정의 상관관계
3.7 추적 콘텍스트를 이용한 실패 주입 및 실험
3.8 마치며
CHAPTER 4 차트와 경고
4.1 모니터링 시스템의 차이
4.2 서비스 수준 지표의 효과적인 시각화
4.3 게이지
4.4 카운터
4.5 타이머
4.6 대시보드 생성을 중지해야 할 때
4.7 모든 자바 마이크로서비스에 통용되는 서비스 수준 지표
4.8 예측 경고 체계
4.9 마치며
CHAPTER 5 멀티 클라우드와 지속적 전달의 안정성
5.1 플랫폼 유형
5.2 자원 유형
5.3 전달 파이프라인
5.4 클라우드용 패키징
5.5 delete+none 배포
5.6 하이랜더
5.7 블루/그린 배포
5.8 카나리 분석 자동화
5.9 마치며
CHAPTER 6 소스 코드 관찰 가능성
6.1 스테이트풀 자산 인벤토리
6.2 릴리스 버전 관리
6.3 의존성 해소 메타데이터
6.4 소스 코
구글과는 다른 넷플릭스의 SRE,
그들의 애플리케이션 관리 노하우를 가득 담은 실전 입문서
SRE(사이트 신뢰성 엔지니어링는 구글에서 사이트의 안정성을 유지하기 위해 개발한 방법론으로 SRE를 도입함으로써 개발과 운영의 분리로 인한 부작용을 피할 수 있다. 또한 세계 경제에 큰 타격을 준 코로나19 같은 사건이 발생해도, 신속하게 시스템을 원격 지원 체계로 전환할 수 있어 많은 기업에서 SRE를 도입하는 사례가 증가하고 있다.
이 책의 저자는 넷플릭스에서 근무하면서 얻은 인적 및 기술적 경험을 토대로 넷플릭스 SRE의 특장점을 가감 없이 소개한다. SRE 발원지인 구글과 다른 넷플릭스 특유의 조직 문화 속에서 발현된 개성적인 SRE의 일면을 엿볼 수 있다. 또한 가장 저변이 넓은 MSA 기술 스택과 자바 진영의 오픈 소스를 활용해 독자의 부담감을 낮추고, 스프링 프레임워크와 그레이들 분야에서 쌓은 업력으로 이를 탄탄하게 뒷받침한다. 기존에 접했던 SRE 관련 학습 자료들이 다소 피상적이라고 느껴졌다면 이 책을 통해 실제로 손에 잡히는 기술들을 습득함으로써 SRE를 추구하는 여정에 가시적인 첫걸음을 내딛을 수 있을 것이다.
소프트웨어 엔지니어에게는 서비스 장애 시간을 줄이고 성능 향상을 위해 다양한 관점에서 접근하는 방법을, IT 자산 관리자에게는 서비스를 안정적이고 신뢰성 있게 운영하는 방법을 안내한다. 기업에 신뢰할 수 있는 마이크로서비스를 성공적으로 도입할 수 있도록 이 책을 읽는 모든 이에게 훌륭한 안내서가 되어줄 것이다.
주요 내용
● 애플리케이션 메트릭: 마이크로미터를 이용한 가용성 모니터링
● 관찰 가능성과 디버깅: 로깅, 분산 추적, 실패 주입 테스트
● 차트와 경보: 자바 마이크로서비스 핵심 지표 차트 구축
● 안전한 멀티 클라우드 전달: 스피나커, 배포 전략, 카나리 분석 자동화
● 소스 코드 관찰 가능성: 종속성 관리, API 활용, 엔드투엔드 자산 인벤토리
● 트래픽 관리: 시스템 동시성, 플랫폼, 게이트웨이