03 Bellman Optimality Equation

👆A special case of Bellman equation
Two concepts: optimal policy $π^{*}$ & optimal state value

强化学习的最终目标是什么？

就是在求解最优策略

One tool: Bellman optimality equation(BOE)

v = π max (r_{π} + γ P_{π} v_{π}) = f (v)

fixed-point theorem
fundamental problems
an algorithm solving the equation

Outline

Analyzing optimal policies

v (s) = π max a \sum π (a ∣ s) q (s, a) (r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S

Known
- Reward design: $r$
- System model: $p (s^{'} ∣ s, a), p (r ∣ s, a)$
- Discount rate: $γ$
Unknown
- $v (s), v (s^{'}), π (a ∣ s)$

What matters is not the absolute reward values! It is their relative values!

奖励在通过线性变换之后最优state value会变，但最优策略是不会变的，从q的形式就可以看出来了，线性变换并不会影响q的相对大小，选择q最大的动作依然还是不变，所以最优策略不变。

奖励设计 vs $γ$

同样重要，比如在权衡1. 惩罚一次到达终点和2. 避免惩罚绕远路到达终点两个策略的时候

只考虑调整奖励设计

惩罚区域的奖励为负数，绝对值很小的时候，当然模型会更倾向选1

惩罚为负数，绝对值很大的时候，模型比较得出绕远路的return更高，就会倾向选2

只考虑调整 $γ$

$γ$ 很小，比如<0.5，模型非常短视，一次惩罚也不肯接受，选择2

$γ$ 很大，接近1，比较远视，未来奖励累积过来也不会衰减很快，选择1

Summary

Bellman optimality equation:

Elementwise form:

v (s) = π max a \sum π (a ∣ s) q (s, a) (r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S

Matrix-vector form:

v = π max (r_{π} + γ P_{π} v)

回答最开始的四个问题

Existence: 这个公式存在解

Uniqueness: 解唯一，指的是 $v^{*}$ 是唯一解，但 $π^{*}$ 不一定唯一

Algorithms: 解算法就用那个Iterative algorithm就可以了，初始化 $v_{0}$ ，然后价值迭代

Optimality: 解是optimal state value，也可以推出optimal policy

Later

next⇒04 Value Iteration & Policy Iteration

Reinforcement Learning Notes

Explorer

03 Bellman Optimality Equation

03 Bellman Optimality Equation

Outline

Analyzing optimal policies

Summary

Later

Graph View

Table of Contents

Backlinks