Derivation of optimal baseline

Preliminiary

Trace of Matrix

here we have $E = E_{S \sim μ, A \sim π}$

The gradient is $\nabla_{θ} J (θ) = E (X)$ where

X ≐ (q_{π} (S, A) - b (S)) \nabla_{θ} ln π (A ∣ S, θ)

$X$ is a (k,1) vector, same as the gradient $\nabla_{θ} ln π (A ∣ S, θ)$
note $\nabla_{θ} J (θ)$ or $θ$ is also a (k,1) vector
Let $\overset{x}{ˉ} ≐ E (X)$ , also a (k,1) vector

It is common to use trace to measure the total variance of a covariance matrix $var (X)$ , and trace is also a scalar obejective function to be optimized:

tr [var (X)] = tr [E [(X - \overset{x}{ˉ}) (X - \overset{x}{ˉ})^{T}]] = tr E (k, k) X X^{T} - (k, k) \overset{x}{ˉ} X^{T} - (k, k) X \overset{x}{ˉ}^{T} + (k, k) \overset{x}{ˉ} \overset{x}{ˉ}^{T} = E (1, 1) X^{T} X - (1, 1) X^{T} \overset{x}{ˉ} - (1, 1) \overset{x}{ˉ}^{T} X + (1, 1) \overset{x}{ˉ}^{T} \overset{x}{ˉ} = E [X^{T} X] - \overset{x}{ˉ}^{T} \overset{x}{ˉ} (tr (A B) = tr (B A))

Then we have

\nabla_{b} tr [var (X)] = \nabla_{b} (E [X^{T} X] - \overset{x}{ˉ}^{T} \overset{x}{ˉ}) = \nabla_{b} E [X^{T} X] - 0 \nabla_{b} \overset{x}{ˉ}^{T} \overset{x}{ˉ} = \nabla_{b} E (1, k) (\nabla_{θ} ln π)^{T} (k, 1) (\nabla_{θ} ln π) (q_{π} (S, A) - b (S))^{2} = \nabla_{b} E [∥ \nabla_{θ} ln π ∥^{2} (q_{π} (S, A) - b (S))^{2}] = - 2 E [∥ \nabla_{θ} ln π ∥^{2} (q_{π} (S, A) - b (S))]

To optimize the variance, we need to set the gradient to zero:

\nabla_{b} tr [var (X)] = E [∥ \nabla_{θ} ln π ∥^{2} (q_{π} (S, A) - b (S))] = 0

To ensure the above equation holds, $b (s)$ for any $s \in S$ should satisfy:

E_{A \sim π} [∥ \nabla_{θ} ln π (A ∣ s, θ) ∥^{2} (q_{π} (s, A) - b (s))] = 0

note: we just expand the expectation $E$ to state-wise form

The above equation can be easily solved to obtain the optimal baseline:

b^{*} (s) = \frac{E _{A \sim π} [ q _{π} ( s , A ) ∥ \nabla _{θ} ln π ( A ∣ s , θ ) ∥ ^{2} ]}{E _{A \sim π} [ ∥ \nabla _{θ} ln π ( A ∣ s , θ ) ∥ ^{2} ]}

We can remove the weights $∥ \nabla_{θ} ln π (A ∣ s, θ) ∥^{2}$ from the above equation, and obtain the suboptimal baseline in a more concise form:

b^{*} (s) = E_{A \sim π} [q_{π} (s, A)] = v_{π} (s)

说一些证明过程中的感悟

这一章的证明其实不难，但是自己依然花了比较多的时间，其原因是自己一开始就把X的shape理解错成了(n,m)的matrix，原因很简单，就是自认为和之前在policy_gradient_proof中的 $\nabla π$ 的思想一样，思路是 $π$ .shape=(n,m)⇒ $\nabla π$ .shape=(n,m)⇒ $\nabla ln π$ .shape=(n,m)，但实际上直接这样想是错误的，原因如下：

在TL;DR的章节中的 $\nabla$ 是基本按 $d$ 的操作的格式去一路写下去的，这也是为什么自己可以这样写： $\nabla v_{π} = \nabla (π @ q_{π}) = \nabla π @ q_{π} + π @\nabla q_{π}$ ，这个过程是符合 $π$ .shape=(n,m)⇒ $\nabla π$ .shape=(n,m)的，这里的 $\nabla π = d π$ ，但是policy_gradient_proof中除了TLDR这里的推导( $\nabla \neq = \nabla_{θ}$ )以外，其他所有地方的 $\nabla π$ .shape都是等于 $θ$ .shape的（因为最开头明确说明了 $\nabla = \nabla_{θ}$ ）

本章节目的是针对参数 $θ$ (e.g. (k,1) vector)，希望可以找到一条梯度下降的方法，既不改变原本下降的梯度 $\nabla_{θ} J (θ) = E (X)$ ，也可以使得对于 $θ$ 而言这条路径梯度的方差 $var$ 不会太大（上面我们就是用trace将(k,k)的这个协方差矩阵的对角线上的协方差值加起来，正好变成一个scalar，去进而求关于b的梯度，得到b的最优解格式），这里的梯度应该是符合 $θ$ .shape=(k,1)⇒ $\nabla_{θ} π$ .shape=(k,1)

总结就是说，X.shape=theta.shape=(k,1)才是正解，最开头关于X的定义式是element-wise的（即对于每个state每个action而言我们是展开写的式子，这里并不可以一眼就把 $q_{π} (S, A)$ 直接就写成(n,m)矩阵 $q_{π}$ 了，这样做下去会把问题复杂化）可以回顾这一节内容⇒ About the policy gradient

Reinforcement Learning Notes

Explorer

optimal_baseline

Derivation of optimal baseline

Graph View

Backlinks