题目
马尔可夫决策过程(MDP)的基本要素
信息
- 类型:问答
- 难度:⭐
考点
强化学习基础概念,马尔可夫决策过程,状态转移模型
快速回答
马尔可夫决策过程(MDP)包含以下5个核心要素:
- 状态集合(S):系统所有可能状态的集合
- 动作集合(A):智能体可以执行的动作集合
- 状态转移概率(P):$P(s'|s,a)$ 表示在状态 $s$ 执行动作 $a$ 后转移到状态 $s'$ 的概率
- 奖励函数(R):$R(s,a,s')$ 表示状态转移后获得的即时奖励
- 折扣因子(γ):取值范围 [0,1],用于计算未来奖励的现值
原理说明
马尔可夫决策过程(MDP)是强化学习的数学框架基础,描述智能体与环境交互的决策过程。其核心特征是马尔可夫性质:下一状态仅取决于当前状态和动作,与历史无关。MDP的5要素共同定义了强化学习问题的结构:
- 状态(S):环境的所有可能配置(如机器人位置)
- 动作(A):智能体的可执行操作(如前进/后退)
- 状态转移概率(P):$P(s'|s,a)$ 量化环境动态特性
- 奖励(R):环境给出的即时反馈信号(如到达目标+10,撞墙-5)
- 折扣因子(γ):平衡即时与未来奖励的重要性(γ=0只考虑即时奖励,γ=1平等看待未来)
示例场景:网格世界
考虑一个2x2网格世界:
# 状态集合
states = [(0,0), (0,1), (1,0), (1,1)]
# 动作集合
actions = ['up', 'down', 'left', 'right']
# 状态转移函数(简化示例)
def transition(state, action):
x, y = state
if action == 'up': return (x, min(y+1, 1))
if action == 'down': return (x, max(y-1, 0))
# ...其他动作类似
# 奖励函数
def reward(state, action, next_state):
if next_state == (1,1): # 目标位置
return 10
elif next_state == state: # 撞墙
return -1
else:
return 0最佳实践
- 状态设计:应满足马尔可夫性(如机器人导航需包含位置和电量)
- 奖励设计:稀疏奖励问题可通过奖励塑形(Reward Shaping)优化
- 折扣因子选择:短期任务用较高γ(0.9),长期任务用较低γ(0.99)
常见错误
- 忽略状态转移概率的马尔可夫性要求
- 奖励函数设计不合理导致智能体钻漏洞(如反复撞墙获取负奖励)
- 未考虑状态空间爆炸问题(需用函数逼近或状态抽象)
扩展知识
当状态不完全可观测时,MDP扩展为部分可观测马尔可夫决策过程(POMDP)。实际算法如Q-learning和策略梯度都建立在MDP框架上。理解MDP要素是掌握时序差分学习、值迭代等算法的基础。