04 Value Iteration & Policy Iteration
- First algorithms for optimal policies
- Three algorithms:
- value iteration vi
- policy iteration pi
- truncated policy iteration
- Two updates
- policy update
- value update
- Need the enviroment model
Outline
Summary
- Value iteration: iterative algorithm solving BOE given an initial value ()
- Policy iteration: given an initial policy ()
- Truncated policy iteration: a mix of value and policy iteration
一些想法
- 随着策略迭代的过程,其实是先靠近目标状态的策略开始变好,离目标状态远一点的策略后变好;
- 直观的用走迷宫的例子去说明价值迭代和策略迭代:
- 价值迭代就是人想一步(policy update)走一步(value update),然后看着迷宫上的value再想再下
- 策略迭代就是先从随便一个迷宫value来评估自己的策略会最终导致什么样的局面(policy evaluation),根据最终局面的看哪个方法好用哪个(policy improvement)
Later
model-based & model-free
Policy iteration和Value iteration通常被认为是dynamic programming的方法,但是其实也是属于model-based的方法,model-based通常指的是可以知道环境的,也可以是基于数据的方式来得到环境模型的估计;之后我们将介绍model-free的MC方法。
with model to without model⇒ 05 Monte Carlo Methods