옮긴이 머리말 xii
베타리더 후기 xiii
추천사 xv
시작하며 xvi
감사의 글 xxi
CHAPTER 01 강화학습 소개 1
1.1 강화학습 1
1.2 MDP로서의 강화학습 7
1.3 강화학습에서 학습하는 함수 11
1.4 심층강화학습 알고리즘 13
1.4.1 정책 기반 알고리즘 14
1.4.2 가치 기반 알고리즘 15
1.4.3 모델 기반 알고리즘 16
1.4.4 결합된 방법 17
1.4.5 이 책에서 다루는 알고리즘 18
1.4.6 활성정책과 비활성정책 알고리즘 19
1.4.7 요약 19
1.5 강화학습을 위한 심층학습 20
1.6 강화학습과 지도학습 22
1.6.1 오라클의 부재 23
1.6.2 피드백의 희소성 24
1.6.3 데이터 생성 24
1.7 요약 25
PART I 정책 기반 알고리즘과 가치 기반 알고리즘
CHAPTER 02 REINFORCE 29
2.1 정책 30
2.2 목적 함수 31
2.3 정책 경사 31
2.3.1 정책 경사 계산 33
2.4 몬테카를로 표본추출 36
2.5 REINFORCE 알고리즘 37
2.5.1 향상된 REINFORCE 38
2.6 REINFORCE 구현 39
2.6.1 최소 형태의 REINFORCE 구현 39
2.6.2 파이토치로 정책 생성하기 42
2.6.3 행동 추출 44
2.6.4 정책 손실 계산 45
2.6.5 REINFORCE 훈련 루프 46
2.6.6 활성정책 재현 메모리 47
2.7 REINFORCE 에이전트의 훈련 50
2.8 실험 결과 53
2.8.1 실험: 할인율 ?? 의 효과 53
2.8.2 실험: 기준값의 효과 55
2.9 요약 57
2.10 더 읽을거리 57
2.11 역사 58
CHAPTER 03 살사(SARSA 59
3.1 Q 함수와 V 함수 60
3.2 시간차 학습 63
3.2.1 시간차 학습에 대한 직관 66
3.3 살사의 행동 선택 73
3.3.1 탐험과 활용 74
3.4 살사 알
주요 내용
심층강화학습 문제의 모든 핵심 내용을 다룹니다.
REINFORCE, 사르사(SARSA, DQN, 이중DQN, 우선순위가 있는 경험재현(PER과 같은 정책-기반 알고리즘과 가치-기반 알고리즘에 대해 알아봅니다.
행동자-비평자(Actor-Critic와 근위 정책 최적화(PPO와 같은 결합된 알고리즘에 대해 심도 있게 알아봅니다.
알고리즘이 동기 및 비동기 방식으로 병렬화되는 과정을 이해합니다.
SLM Lab에서 알고리즘을 실행해 보고, 심층강화학습을 실무에 적용하기 위한 세부사항들을 학습합니다.
튜닝된 하이퍼파라미터를 사용한 결과를 통해 알고리즘을 탐험합니다.
심층강화학습 환경의 설계 방법을 이해합니다.