#AI#RL

1 基本概念

return:trajectory上的reward之和(discounted) discount rate:reward的折现率

episode:可到达终点的 trajectory,也叫 trial episodic task:有限步的task,continuing task:无限步的task

decision (即policy) 确定后,Markov decision process 变为 Markov process

2 Bellman公式

这里用表示t时刻动作后的reward

state-value是对所有trajectory的return的平均值

Bellman公式描述了不同状态的state-value之间的关系。 每个状态一个bellman公式

dynamic model 即 环境模型

最终是为了最优策略

是当前步的reward,是状态转移矩阵

给定policy后,求解state values就是policy评估

用迭代法求解

3 Bellman最优公式

对bellman最优公式是未知,在bellman公式里是已知

是个向量,其中关于s的分量是

证明BOE需要收缩映射定理:

存在且唯一

-> -> ->

重要的是reward的相对值,而不是绝对值

4

值迭代

值更新对只迭代一次

Matrix-vector形式用于理论分析,Elementwise形式用于实现 给定最优策略,直接就能求值

策略迭代

策略迭代是蒙特卡洛法的基础

*给定一个策略,迭代求直到收敛

迭代求直到收敛,根据bellman公式

截断的策略迭代

为作比较,假设值迭代的初始值

VI和PI是TPI的特例

迭代求有限步

5 蒙特卡洛法

model-free是基于采样的

MC Exploring Starts

计算时,trajectory后面的visit全部重新计算,就像动态规划没有利用最优子结构

visit是对episode而言的 first-visit:比如对original episode,只计算第一个出现的

拿到一个 episode 就更新 action value

通用策略迭代GPI:策略评估和改进交替进行,策略评估有些许改进就行

  • g初始表示第t步之后的return
  • 是个集合,存放所有episode的从开始的return

MC ε-greedy

soft policy:采取任何行动的概率都不为0

近似ε概率去探索

用every-visit

6 随机近似

随机近似是时序差分法的基础

是之前平均数,是当前的数

SA:Stochastic Approximation

RM算法

条件2):要收敛到0,但不要太快收敛到0

实践中取足够小的数。如果用,后面进来的数据权重就太小了。

均值估算法是RM算法的特例

SGD:随机梯度下降

SGD的收敛分析

现将SGD变换为RM算法的形式

然后让SGD满足RM算法的收敛性要求

  • 当迭代值距离最优值很远时,SGD呈现的行为类似GD
  • 当迭代值距离最优值较近时,SGD呈现出较大的随机性

BatchGD是全量,MiniBatchGD是有放回抽样 注:神经网络训练时的mini-batch是无放回抽样

7 时序差分

TD learning

给定策略,估计出state值

在model-free情况下计算bellman公式

用采样替代最优策略的值

TD是有偏估计(自举),但方差小

Sarsa

给定策略,估计出action值

Expected Sarsa

就是state值

n-steps Sarsa

Sarsa、n-steps Sarsa、MC 仅仅是 TD-target (即 ) 不同

Q-learning

估计出 最优action值

中的a是

off-policy vs. on-policy

异策略 vs. 同策略

q-learning只比sarsa多一个

的b说明是behavior策略,的T说明是Target策略

为什么更新目标策略用greedy,不用ε-greedy? 因为目标策略不再需要作为行为策略去探索。

8 值函数近似

用函数近似表格,如:价值函数表格 ,策略表格

是近似函数的参数

平稳分布

用采样代替期望

TD learning + 函数近似

Sarsa + 函数近似

Q-learning + 函数近似

DQN: Deep Q-learning

用神经网络作为非线性函数逼近器

main network用mini-batch数据更新,target network隔一段时间复制main network参数

在mini-batch上最小化目标函数J

9 策略梯度

策略函数近似 用函数近似表格,如 (state, action) -> π(state, action)

用梯度上升法最大化

REINFORCE

实践中不会等d变为平稳分布再采样S

Value update: 蒙特卡洛法

10 Actor-Critic法

QAC

value update: TD + 值函数近似

A2C

作b(s)

off-policy AC

与前面 on-policy policy gradient 的公式比较: A的分布从变为,相应添加了重要性权重 注:S的分布”没变”(on-policy时平稳分布,off-policy时状态分布不需要平稳)

对比前面A2C,就加了个重要性权重

确定性AC(DPG)

直接输出a,而不是采取a的概率

式中 先对a求导,再把结果的a替换为μ(s)

value update: TD + 值函数近似

参考