灵长类动物视觉系统的视神经接收到大量的感觉输入,远远超过了大脑可以完全处理的输入。幸运的是,并非所有刺激都是平等的。焦点的集中和意识的集中使灵长类动物能够在复杂的视觉环境中将注意力转移到感兴趣的对象上,例如猎物和掠食者。仅关注一小部分信息的能力具有进化意义,使人类得以生存和成功。
自19世纪以来,科学家一直在研究认知神经科学领域的注意力。在本章中,我们将从回顾一个流行的框架开始,解释在视觉场景中如何部署注意力。受此框架中注意提示的启发,我们将设计利用此类注意提示的模型。值得注意的是,1964年的Nadaraya-Waston核回归是具有注意力机制的机器学习的简单演示。
接下来,我们将继续介绍深度学习中注意力模型设计中广泛使用的注意力函数。具体来说,我们将展示如何使用这些函数来设计Bahdanau注意力,这是深度学习中一种突破性的注意力模型,可以双向对齐并且是可微分的。最后,配备了最近的多头注意和自我注意设计,我们将描述仅基于注意机制的Transformer架构。自2017年提出以来,Transformer已经渗透到现代深度学习应用中,如语言、视觉、语音和强化学习领域。