主要的难点:

  1. 图像和问题真正的理解,所以就引出了注意力机制,需要解决的问题是图像的哪一部分对于特定的问题具有更重要的作用,研究的方向就演变成了对于注意力机制实现方法的研究。注意力包括问题对图像的注意力、图像对图像的注意力,图像对问题的注意力,总而言之就是两点(内部注意力和相互注意力)。
  2. 图像和问题中objects的关系学习
  3. 多模态特征的融合,可以结合注意力机制,主要问题在于对于一张图片和问题这对数据,语言特征和视觉特征是不一致,需要找到一种方法将两种特征融合起来,特征丰富了,最后传给分类器的时候分类的准确率就更高。

方法类别:

  • 注意力机制笔记 - 图1

    • 自注意力:Q和K相同
    • 联合注意力:同时进行注意力权值的提取
    • 分级注意力:词对图像 -> 句子对图像
    • 多头注意力机制:对于Q、K、V先进行不同的线性变化再分别求注意力,最后级联所有注意力
  • 双线性模型

    • 同源双线性
    • 多模态双线性:BAN(双线性注意力)

双线性池化:
对于图像在位置l的两个特征笔记 - 图2,对其进行特征融合:
笔记 - 图3
使用双线性池化的方法,可以将不同的特征进行融合从而获取更多的信息,在细粒度分类和视觉问答的任务中均取得了较好的结果,但是直接进行双线性池化有个问题,就是会使得维数变大,它的维数是融合之前的两个特征的维数之积。需要研究的是如何降低维数的同时不影响模型的效果。
双线性池化降维:compact bilinear pooling(CBP),MCBP,low rank bilinear pooling
双线性模型:
对于特征向量x和y,双线性模型的定义是:笔记 - 图4

  • 哈达马乘积实现双线性模型:(哈达马矩阵乘法可以实现矩阵乘法的变换,维数变换和降维等
    • 笔记 - 图5
    • 笔记 - 图6

image.png

  • 线性注意力模型(BAN):
    • 将注意力机制用哈达马乘法表示:
    • 笔记 - 图8 笔记 - 图9(多头注意力机制)
    • 在上面的基础上定义一个双线性多头注意力图:
    • 笔记 - 图10

image.png笔记 - 图12

CVPR2019方法总结与思考

《Answer Them All! Toward Universal Visual Question Answering Models》

重点:解决真实世界数据集(侧重对复杂图像内容的理解)和合成数据集(侧重推理能力)的VQA问题。
方法:
image.png

《Deep Modular Co-Attention Networks for Visual Question Answering》

image.pngimage.png

image.png

《Dynamic Fusion with Intra- and Inter-modality Attention

Flow for Visual Question Answering》

image.png
image.png

《MUREL: Multimodal Relational Reasoning for Visual Question Answering》

image.png
image.png

不成熟的想法

  • 答案标签嵌入