DP 状态转移方程

image 表示考虑前 image 个物品,当前背包剩余容量为 image 时,所能获得的最大价值;imageimage 分别为第 image 个物品的重量和价值。

则状态转移方程为:

image

对应术语

DP术语 对应RL术语
状态 image,即“考虑第 i 个物品,剩余容量 c”
动作 image:是否选第 i 个物品
奖励 image
状态转移 image
(状态)价值函数 image

从 DP 状态转移方程到 Bellman 方程

  1. DP 状态转移方程

image

  1. 代换为 RL 术语

image

进一步整理得:

image

这与 Bellman 方程的形式相同(image):

image