智能体与环境之间的相互作用是一个观察1 引言 - 图1— 行为1 引言 - 图2循环
image.png
智能体根据观察序列1 引言 - 图4,在存在各种不确定性的情况下,选择最佳的行动。

不确定性来源包括:

  • 结果不确定性
  • 模型不确定性
  • 状态不确定性
  • 交互不确定性

    智能体决策的方法:

  • 显式编程:预测可能出现的所有场景,并编写智能体分别应该做什么。

  • 监督学习:向智能体展示训练示例,算法从示例中进行归纳。
  • 最优化:设计者指定可能的决策策略空间和被最大化的性能度量,优化算法从中搜索最优策略。
  • 规划:使用确定性模型来近似。
  • 强化学习:设计者仅需提供性能度量。

    本书内容结构:

  • part 1:在单个时间点 在简单决策中对于不确定性和目标的推理

  • part 2:将决策扩展到序列问题
  • part 3:讨论模型不确定性,从没有已知的模型开始
  • part 4:讨论状态不确定性,无法了解完整的环境状态
  • part 5:多智能体下的决策