|
课程介绍:$ M3 U! F. E4 m' i1 x
' g! U1 O- o" w% t/ ^
强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.
1 q1 Y- e' x6 O# w; l! M* k9 v( E2 Q5 r$ ~! Q% o+ l$ t( j" ^
课程目录:% x! I5 u# L& |; ]; m) r z3 o
$ y9 ^* a, M+ e8 n
一、简介
: G% b9 j( N5 v3 a {1 q& {# ?+ z' u. ?% n2 \% M
1.1 什么是 强化学习 (Reinforcement Learning)" h/ Y& O" D0 e& L
1.2 强化学习方法汇总 (Reinforcement Learning)! |" l1 o% ~7 A$ d: j* C) S
1.3 为什么用强化学习 Why?2 a2 c& ]6 }& w4 I
1.4 课程要求" S( _6 M( n$ P7 k
! z- f( u# m/ I" P9 g二、Q-learning
0 t. w5 U4 s5 n( \$ W5 e7 x; P1 ?- |4 Q' Q; A5 ?3 R4 I
2.1 小例子: {9 O- J1 [6 d5 a0 e
2.2 什么是 Q Leaning
% p( ?4 O5 X) O. z/ @( A) c {2.3 Q-learning 算法更新" a1 }8 N8 @) _4 s. x+ l0 U
2.4 Q-learning 思维决策
) S$ x5 [6 H- W7 Q/ p7 |: F x, A% H& e
三、Sarsa
' @! j9 D) l5 D' l1 T8 F* X& r" E6 t6 l" x0 p( X
3.1 什么是 Sarsa
. m9 M2 ^# Z2 P# ~1 a3.2 Sarsa 算法更新 f; Y8 t C% G- @7 O# F1 y
3.3 Sarsa 思维决策: K, K$ P7 \# ?8 h7 Y, r
3.4 什么是 Sarsa(lambda)
5 D- b5 Q1 M/ {3.5 Sarsa-lambda
8 a) t4 N' d$ f% [. |, Z! r, z" A! B; Y% l0 c1 x
四、Deep Q Network
: S& }! A/ ]0 I) ^
2 I7 t2 d- X' q% z) q- ?( s4.1 什么是 DQN
1 x4 `; {) I1 c4.2 DQN 算法更新 (Tensorflow)9 P. T7 X6 Q, d. j1 a$ }! g* p
4.3 DQN 神经网络 (Tensorflow)* p2 M! b* V y& i
4.4 DQN 思维决策 (Tensorflow)& d5 h5 F" n f& m5 w
4.5 OpenAI gym 环境库/ \4 E* O2 j* h; r5 }4 Z
4.6 Double DQN (Tensorflow)
/ t6 v% z! D# k0 k; q. \* L, n4.7 Prioritized Experience Replay (DQN) (Tensorflow)/ V& Z2 D; _8 Y2 B+ t
4.8 Dueling DQN (Tensorflow) L2 z( b( ~3 Z, h C [4 w2 b* s' m
( J( `0 @6 r9 S( Q五、Policy Gradient/ @* c0 ^, ~9 l" t2 Q8 m
: c- |3 L# L6 l0 t+ u
5.1 什么是 Policy Gradients
9 {- N7 s, U9 c7 k& i0 l' L5.2 Policy Gradients 算法更新 (Tensorflow)" O+ \& ?1 J' @& x4 b
5.3 Policy Gradients 思维决策 (Tensorflow)
1 G9 n- l( Q( P, R
7 [6 o9 X- r Y3 x六、Actor Critic3 {- }5 b- j; q) Z4 B
5 ^6 K: I6 _# A; G. E3 ?6 C# M: }7 {3 n
6.1 什么是 Actor Critic
6 l3 x: E/ X# b/ c& K/ w i6.2 Actor Critic (Tensorflow)
! m; a+ [% A& K+ [, L6.3 什么是 Deep Deterministic Policy Gradient (DDPG)5 a0 R2 E2 c4 w) `3 @' j j
6.4 Deep Deterministic Policy Gradient (DDPG) (Tensorflow)
: _+ ^2 L7 ^, h0 K6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)
" A+ p8 B4 `+ x' T' i0 r: D6.6 Asynchronous Advantage Actor-Critic (A3C) (Tensorflow)3 L) `. S4 L0 ^6 W+ o9 [" g+ S
6.7 Distributed Proximal Policy Optimization (DPPO) (Tensorflow); I0 Z) n6 A5 B' P( y
! D2 h+ v: l9 ^" ^' s
! E6 s8 Y! e% v5 |1 {
$ S/ L4 n4 e1 y" m4 d( D5 o2 ~% a3 {, ~+ u( A2 R5 |7 j. L7 n) ]
资源下载地址和密码(百度云盘): [/hide] 百度网盘信息回帖可见3 i1 `2 z8 `0 _& O* d: E
1 d* i% \+ Y5 d2 n9 W
% z$ d9 o1 }6 {: h9 R
, R7 f* h& @: W9 Z本资源由Java自学网收集整理【www.javazx.com】 |
|