Reinforcement Learning Notes

❯

10 Actor-Critic Methods

10 Actor-Critic Methods

Apr 01, 20251 min read

10 Actor-Critic Methods

Gap: policy-based + value-based $θ_{t + 1} = θ_{t} + α q_{t} (s_{t}, a_{t}) \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t})$
Algorithms
- the simplest actor-critic (QAC)
- Advantage actor-critic (A2C)
- Off-policy actor-critic
  - Importance sampling
- Deterministic actor-critic (DPG)

为什么叫actor-critic

其实actor就是policy-based，critic就是value-based，而整个算法其实就是09 Policy Gradient Methods，为了突出其中value的作用，上面用红色标注，其实整个方法就是08 Value Function Methods+09 Policy Gradient Methods

Introduction

Actor-critic methods are still policy gradient methods.

emphasize(着重于) the structure that incorporates the policy gradient and value-based methods What are “actor” and “critic”?
“actor” refers to policy update
“critic” refers to policy evaluation(or value estimation)

Outline

The simplest actor-critic
Advantage actor-critic
Off-policy actor-critic
Deterministic actor-critic

Later

next ⇒ your unique journey in the RL field

Graph View

10 Actor-Critic Methods
Introduction
Outline
Later

Backlinks

09 Policy Gradient Methods
index

Created with Quartz v4.4.0 © 2025

GitHub