도서상세보기

도서명 파이썬과 케라스로 배우는 강화학습 : 내 손으로 직접 구현하는 게임 인공지능 (개정판 - 위키북스 데이터 사이언스 시리즈 54
저자 이웅원 외공저
출판사 위키북스
출판일 2020-04-07
정가 28,000원
ISBN 9791158392017
수량
[1부] 강화학습 소개

▣ 1장: 강화학습 개요
___강화학습의 개념
___스키너의 강화 연구
___우리 주변에서의 강화
___머신러닝과 강화학습
___스스로 학습하는 컴퓨터, 에이전트
강화학습 문제
___순차적 행동 결정 문제
___순차적 행동 결정 문제의 구성 요소
___방대한 상태를 가진 문제에서의 강화학습
강화학습의 예시: 브레이크아웃
___딥마인드에 의해 다시 빛을 본 아타리 게임
___브레이크아웃의 MDP와 학습 방법
정리
___강화학습의 개념
___강화학습 문제
___강화학습의 예시: 브레이크아웃

[2부] 강화학습 기초

▣ 2장: 강화학습 기초 1 - MDP와 벨만 방정식
MDP
___상태
___행동
___보상함수
___상태 변환 확률
___할인율
___정책
가치함수
___가치함수
큐함수
벨만 방정식
___벨만 기대 방정식
___벨만 최적 방정식
정리
___MDP
___가치함수
___벨만 방정식

▣ 3장: 강화학습 기초 2 - 그리드월드와 다이내믹 프로그래밍
다이내믹 프로그래밍과 그리드월드
___순차적 행동 결정 문제
___다이내믹 프로그래밍
___격자로 이뤄진 간단한 예제: 그리드월드
다이내믹 프로그래밍 1: 정책 이터레이션
___강화학습 알고리즘의 흐름
___정책 이터레이션
___정책 평가
___정책 발전
___정책 이터레이션 코드 설명
___정책 이터레이션 코드 실행
다이내믹 프로그래밍 2: 가치 이터레이션
___명시적인 정책과 내재적인 정책
___벨만 최적 방정식과 가치 이터레이션
___가치 이터레이션 코드 설명
___가치 이터레이션 코드 실행
다이내믹 프로그래밍의 한계와 강화학습
___다이내믹 프로그래밍의 한계
___모델 없이 학습하는 강화학습
정리
___다이내믹 프로그래밍과 그리드월드
___다이내믹 프로그래밍 1: 정책 이터레이션
___다이내믹 프로그