贝尔曼方程的矩阵形式动作价值函数QQ函数的递推公式 贝尔曼方程的矩阵形式即解得时间复杂度该方程也可以用动态规划求解 动作价值函数Q这里引入一个Q函数,叫做动态价值函数,其定义在某一个状态采取某一个动作所获得的期望回报显然根据概率图模型可得: Q函数的递推公式由上面两个式子可以建立V和Q的关联