Truncated Policy Iteration

Compare value iteration and policy iteration

Policy iteration: start from

  • Policy evaluation (PE)
  • Policy improvement (PI)

Value iteration: start from

  • Policy update (PU)
  • Value update (VU)

PE=policy evaluation, PI=policy improvement, PU=policy update, VU=value update

Algorithm

Policy Iteration(PI) vs. Value Iteration(VI) vs. Trucated Policy Iteration(TPI)

center

实际上三个算法的效果为PI>TPI>VI,而且通过TPI,可以很清晰的将价值迭代和策略迭代之间的关系紧密联系起来:

  1. PI的Policy evaluation部分和VI的Value update部分的公式是一样的,都是通过Bellman equation来更新状态价值函数,但是有所区别的是PI中的Policy evaluation部分需要迭代至收敛,而VI中的Policy update部分只需要一次迭代。
  2. 观察TPI中的,当这个参数为1时(再交换一下Policy evaluationPolicy improvement的顺序,同时保持pe中的继承最新那个v),TPI就退化为VI,当这个参数为时,TPI就变成了PI,所以TPI是PI和VI的一个折中方案。