▣ 01장: 강화학습 수학
1.1 확률과 랜덤 변수
___1.1.1 확률
___1.1.2 랜덤 변수
___1.1.3 누적분포함수와 확률밀도함수
___1.1.4 결합 확률함수
___1.1.5 조건부 확률함수
___1.1.6 독립 랜덤 변수
___1.1.7 랜덤 변수의 함수
___1.1.8 베이즈 정리
___1.1.9 샘플링
1.2 기댓값과 분산
___1.2.1 기댓값
___1.2.2 분산
___1.2.3 조건부 기댓값과 분산
1.3 랜덤벡터
___1.3.1 정의
___1.3.2 기댓값과 공분산 행렬
___1.3.3 샘플 평균
1.4 가우시안 분포
1.5 랜덤 시퀀스
___1.5.1 정의
___1.5.2 평균함수와 자기 상관함수
___1.5.3 마르코프 시퀀스
1.6 선형 확률 차분방정식
1.7 표기법
1.8 중요 샘플링
1.9 엔트로피
1.10 KL 발산
1.11 추정기
___1.11.1 최대사후 추정기
___1.11.2 최대빈도 추정기
1.12 벡터와 행렬의 미분
___1.12.1 벡터로 미분
___1.12.2 행렬로 미분
1.13 촐레스키 분해
1.14 경사하강법
___1.14.1 배치 경사하강법
___1.14.2 확률적 경사하강법
1.15 경사하강법의 개선
___1.15.1 모멘텀
___1.15.2 RMSprop
___1.15.3 아담
1.16 손실함수의 확률론적 해석
___1.16.1 가우시안 오차 분포
___1.16.2 베르누이 오차 분포
▣ 02장: 강화학습 개념
2.1 강화학습 개요
2.2 강화학습 프로세스와 표기법
2.3 마르코프 결정 프로세스
___2.3.1 정의
___2.3.2 가치함수
___2.3.3 벨만 방정식
___2.3.4 벨만 최적 방정식
2.4 강화학습 방법
▣ 03장: 정책 그래디언트
3.1 배경
3.2 목적함수
3.3 정책 그래디언트
3.4 REINFORCE 알고리즘
▣ 04장: A2C
4.1 배경
4.2 그래디언트의 재구성
4.3 분산을 감소시키기 위한 방법
4.4 A2C 알고리즘
4.5 A2C 알고리즘 구현
___4.5.1 테스트 환경
___4.5.2 코드 개요
___4.5.3 액터 클래스
___4.5.4 크리틱 클래스
___4.5.5 에이전트 클래스
___4.5.6 학습 결과
___4.5.7 전체 코드
▣ 05장: A3C
5.1 배경
5.2 그래디언트 계산의 문제
___5.2.1 샘플의 상관관계
___5.2.2 n-스텝 가치 추정
5.3 비동기 액터-크리틱(A3C) 알고리즘
5.4 그래디언트 병렬화 방식의 A3C 알고리즘 구현
___5.4.1 테스트 환경
___5.4.2 코드 개요
___5.4.3 액터 클래스
___5.4.4 크리틱 클래스
___5.4.5 에이전트 클래스
___5.4.6 학습 결과
___5.4.7 전체 코드
5.5 데이터 병렬화 방식의 A3C 알고리즘 구현
___5.5.1 코드 개요
___5.5.2 전체 코드
▣ 06장: PPO
6.1 배경
6.2 그래디언트의 재구성
6.3 정책 업데이트와 성능
6.4 PPO 알고리즘
6.5 어드밴티지 추정의 일반화 (GAE)
6.6 PPO 알고리즘 구현
___6.6.1 테스트 환경
___6.6.2 코드 개요
___6.6.3 액터 클래스
___6.6.4 크리틱 클래스
___6.6.5 에이전트 클래스
___6.6.6 학습 결과
___6.6.7 전체 코드
▣ 07장: DDPG
7.1 배경 240
7.2 그래디언트의 재구성
7.3 DDPG 알고리즘
7.4 DDPG 알고리즘 구현
___7.4.1 테스트 환경
___7.4.2 코드 개요
___7.4.3 액터 클래스
___7.4.4 크리틱 클래스
___7.4.5 액터-크리틱 에이전트 클래스
___7.4.6 학습 결과
___7.4.7 전체 코드
▣ 08장: SAC
8.1 배경
8.2 소프트 벨만 방정식
8.3 소프트 정책 개선
8.4 SAC 알고리즘
8.5 SAC 알고리즘 구현
___8.5.1 테스트 환경
___8.5.2 코드 개요
___8.5.3 액터 클래스
___8.5.4 크리틱 클래스
___8.5.5 에이전트 클래스
___8.5.6 학습 결과
___8.5.7 전체 코드
▣ 09장: 모델 기반 강화학습 기초
9.1 배경
9.2 최적제어
___9.2.1 LQR
___9.2.2 확률적 LQR
___9.2.3 가우시안 LQR
___9.2.4 반복적 LQR
9.3 모델 학습 방법
▣ 10장: 로컬 모델 기반 강화학습
10.1 배경
10.2 로컬 모델 피팅 기반 LQR
10.3 로컬 모델 피팅
___10.3.1 조건부 가우시안 방법
___10.3.2 GMM 사전분포를 이용한 로컬 모델 업데이트
10.4 로컬 제어 법칙 업데이트
__