Example of Temporal-Difference

Revisit the mean estimation problem

w = E [X]

based on some i.i.d. samples ${x}$ of $X$ .

reformulate to root-finding problem: $g (w) = w - E [X] = 0$ is the equation to solve;
sample $x$ from $X$ , obtain noisy observation $\tilde{g} (w, η) = w - x = (w - E [X]) + (E [X] - x) = g (w) + η$
update $w$ by RM $w_{k + 1} = w_{k} - α_{k} \tilde{g} (w_{k}, η_{k}) = w_{k} - α_{k} (w_{k} - x_{k})$

w = E [v (X)]

based on some i.i.d. random samples ${x}$ of $X$ .

reformulate: $g (w) \tilde{g} (w, η) = w - E [v (X)] = 0 = w - v (x) = (w - E [v (X)]) + (E [v (X)] - v (x)) = g (w) + η$
update $w$ by RM: $w_{k + 1} = w_{k} - α_{k} \tilde{g} (w_{k}, η_{k}) = w_{k} - α_{k} (w_{k} - v (x_{k}))$

w = E [R + γ v (X)]

where $R, X$ are random variables, constant $γ \in [0, 1]$ , and $v (\cdot)$ is a function.

suppose we can obtain samples ${r}, {x}$ of $R, X$ respectively: $g (w) \tilde{g} (w, η) = w - E [R + γ v (X)] = 0 = w - [r + γ v (x)] = (w - E [R + γ v (X)]) + (E [R + γ v (X)] - [r + γ v (x)]) = g (w) + η$
update $w$ by RM: $w_{k + 1} = w_{k} - α_{k} \tilde{g} (w_{k}, η_{k}) = w_{k} - α_{k} (w_{k} - [r_{k} + γ v (x_{k})])$

TLDR

上面三个例子都是用来估计expectation的，都是用RM来写成迭代的相似形式，下面我们就要正式引入state value的TD learning了。