启发算法 - 强化学习 - 《大前端》

用例：视频游戏，控制自动车辆，生产线软件，金融系统
**
基于基础心理学和经典条件反射，强化学习（RL）支持为代理人采取的有力行动提供积极的数字响应。强化学习的经典案例：Pavlov’s Dogs，当狗被喂食时，会自动分泌唾液。从本质上讲，如果一个RL代理采取了好的行为，就会得到一个数字奖励。所以代理将使用策略不断学习，以争取在每个步骤最大限度的获得奖励。

RL算法与其他机器学习技术(如神经网络)相结合是很常见的。这通常被称为深度强化学习。神经网络常被用来估量应当给予RL代理人的奖励。Deep Mind采用深度Q学习方法来解决更为普遍的问题，例如处理特别复杂的游戏如“星际争霸II”。

作为参考，Q学习是一种无模型的强化学习算法。它可用于求解有限马尔可夫决策过程的最优行为选择策略。在程序初始化时，每个动作值对的Q值由开发者定义，并在每一步中由RL算法更新。下图是更新Q动作值对的示例。
强化学习 - 图1