用例:视频游戏,控制自动车辆,生产线软件,金融系统
**
基于基础心理学和经典条件反射,强化学习(RL)支持为代理人采取的有力行动提供积极的数字响应。强化学习的经典案例:Pavlov’s Dogs,当狗被喂食时,会自动分泌唾液。从本质上讲,如果一个RL代理采取了好的行为,就会得到一个数字奖励。所以代理将使用策略不断学习,以争取在每个步骤最大限度的获得奖励。
RL算法与其他机器学习技术(如神经网络)相结合是很常见的。这通常被称为深度强化学习。神经网络常被用来估量应当给予RL代理人的奖励。Deep Mind采用深度Q学习方法来解决更为普遍的问题,例如处理特别复杂的游戏如“星际争霸II”。
作为参考,Q学习是一种无模型的强化学习算法。它可用于求解有限马尔可夫决策过程的最优行为选择策略。在程序初始化时,每个动作值对的Q值由开发者定义,并在每一步中由RL算法更新。下图是更新Q动作值对的示例。
