1. 近似策略评估 Approximate Policy Evaluation:::info 策略搜索(Policy Search)——搜索策略空间,而不直接计算价值函数。策略空间的维数通常低于状态空间,且搜索更有效。参数化策略 ::: 1. 近似策略评估 Approximate Policy Evaluation假设初始状态分布