Markov Decision Process(MDP)

Key elements of MDP

为什么要写成

意味着不同state可以有不同action space

如果以后别人问什么是MDP怎么办?

就回答:MDP就是markov decision process,废话一样,其实可以从题意出发

  • markov: 就是指 马尔可夫性质,当前状态采取动作之后,下一状态以及得到的奖励的概率分布和历史无关
  • decision: 就是指policy,策略就是指当前状态采取某一个动作的概率
  • process: 包含state, action, reward三个set和state trainsition prob和reward prob

Markov decision process becomes Markov process once the process is given.

center