도서상세보기

도서명 바닥부터 배우는 강화 학습
저자 노승은
출판사 영진닷컴
출판일 2020-09-15
정가 22,000원
ISBN 9788931463170
수량
Chapter 1. 강화 학습이란
Chapter 2. 마르코프 결정 프로세스
Chapter 3. 벨만 방정식
Chapter 4. MDP를 알 때의 플래닝
Chapter 5. MDP를 모를 때 밸류 평가하기
Chapter 6. MDP를 모를 때 최고의 정책 찾기
Chapter 7. Deep RL 첫걸음
Chapter 8. 가치 기반 에이전트
Chapter 9. 정책 기반 에이전트
Chapter 10. 알파고와 MCTS
Chapter 11. 블레이드&소울 비무 AI 만들기
구성

Chapter 1. 강화 학습이란
바둑에서 시작하여 게임, 금융, 로봇까지 수많은 분야에서 강화학습을 통해 전례 없는 수준의 AI가 만들어졌습니다. 기존 학습 방법론과 어떤 차이가 있었기에 이런 도약이 가능했을까요? 그에 대한 답은 강화 학습이 무엇인가라는 작은 이야기부터 시작합니다.

Chapter 2. 마르코프 결정 프로세스
문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 합니다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP(Markov Decision Process의 형태로 만들어야 합니다. MDP에 대해 속속들이 알아봅니다.

Chapter 3. 벨만 방정식
대부분의 강화 학습 알고리즘은 밸류를 구하는 것에서 출발합니다. 그리고 밸류를 구하는 데 뼈대가 되는 수식이 바로 벨만 방정식입니다. 벨만 기대 방정식과 벨만 최적 방정식이라는 두 종류의 방정식을 배워봅니다.

Chapter 4. MDP를 알 때의 플래닝
벨만 방정식 학습으로 간단한 MDP를 풀 수 있습니다. 벨만 방정식을 반복적으로 적용하는 방법론을 통해 아주 간단한 MDP를 직접 풀어봅니다.

Chapter 5. MDP를 모를 때 밸류 평가하기
MDP의 전이 확률과 보상 함수를 모를 때에 대한 이야기가 시작됩니다. 주어진 수식을 이용해 정확한 값을 계산하는 대신, 수많은 샘플을 통해 근사하는 “샘플 기반 방법론”을 배워봅니다.

Chapter 6. MDP를 모를 때 최고의 정책 찾기
Control 문제를 해결할 차례입니다. 밸류를 계산할 수 있기 때문에 이를 이용해 정책을 찾는 것은 한결 쉽습니다. 그 유명한 Q러닝을 배워봅니다.

Chapter 7. Deep RL 첫걸음
커다란 MDP의 세계를 항해하기 위해서 우리에게는 또 다른 무기가 하나 필요합니다. 바로 “딥러닝” 입니다. 딥러닝과 강화 학습이 만나 Deep RL이라는 유연하고도 범용적인 방법론이 탄생합니다. 먼저 딥러닝에 대한 이야기부터 시작합니다.

Chapter 8