02 Bellman Equation

v_{π} (s) = E [G_{t} ∣ S_{t} = s]

v_{π} = r_{π} + γ P_{π} v_{π}

Bellman Equation(贝尔曼公式)用一句话来描述

实际上就是描述了所有状态的状态值之间的关系。求解贝尔曼公式进而得到一个策略所对应的状态值的一个过程就叫做policy evaluation。

Outline

Calculating return is important to evaluate a policy. Return is the (discounted) sum of the rewards obtained along a trajectory

center

Let $v_{i} = v (s_{i})$ denote the return obtained starting from $s_{i} (i = 1, 2, 3, 4)$

v_{1} v_{2} v_{3} v_{4} = r_{1} + γ r_{2} + γ^{2} r_{3} + \dots = r_{2} + γ r_{3} + γ^{2} r_{4} + \dots = r_{3} + γ r_{4} + γ^{2} r_{1} + \dots = r_{4} + γ r_{1} + γ^{2} r_{2} + \dots

Note that we can write it in this method:

v_{1} v_{2} v_{3} v_{4} = r_{1} + γ (r_{2} + γ r_{3} + \dots) = r_{1} + γ v_{2} = r_{2} + γ (r_{3} + γ r_{4} + \dots) = r_{2} + γ v_{3} = r_{3} + γ (r_{4} + γ r_{1} + \dots) = r_{3} + γ v_{4} = r_{4} + γ (r_{1} + γ r_{2} + \dots) = r_{4} + γ v_{1}

Matrix-vector form:

v v_{1} v_{2} v_{3} v_{4} = r_{1} r_{2} r_{3} r_{4} + γ v_{2} γ v_{3} γ v_{4} γ v_{1} = r r_{1} r_{2} r_{3} r_{4} + γ P 0001100001000010 v v_{1} v_{2} v_{3} v_{4}

v = r + γ Pv

Policy evaluation, widely used later