对比学习下,自适应稀疏注意力跨模态语义对齐是否绝对最优?

摘要:对比学习下的跨模态语义对齐是最优的吗?---自适应稀疏化注意力对齐机制 IEEE Trans. MultiMedia
论文介绍:Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching (统一的自适应相关性可区分注意力网络)IEEE Trans. MultiMedia 主要优势: 1)首次提出一种自适应的相关性区分注意力学习框架。在对比学习的相对概念下,通过将注意力阈值也统一到学习过程,实现一种相互提升的优化方式,能够在学习更具备对齐区分性的特征嵌入同时,获取最优的注意力区分阈值。 2)通过自适应学习的最优相关性阈值,将之前的稠密冗余跨模态注意力对齐,优化为稀疏精确的,进一步提升对齐精度。 3)通过自适应学习的最优相关性阈值,将之前的全片段图文相似度计算,优化为相关部分计算,进一步消减计算耗时。 一、前言   图像文本匹配任务定义:也称为跨模态图像文本检索,即通过某一种模态实例, 在另一模态中检索语义相关的实例。例如,给定一张图像,查询与之语义对应的文本,反之亦然。具体而言,对于任意输入的文本-图像对(Image-Text Pair),图文匹配的目的是衡量图像和文本之间的语义相似程度。 图1 图文匹配的输入和输出 核心挑战:图像文本跨模态语义关联致力于弥合视觉模态和语言模态之间的语义鸿沟,目的是实现异质模态(底层像素组成的图像和高层语义向量表示的文本)间的准确语义对齐,即挖掘和建立图像和文本的跨模态语义一致性关联对应关系。   现状分析:在训练过程中如何约束?通常使用的方法是结构化排序损失,约束的是相似度相对大小,其中匹配样本对被拉到一起,而不匹配对被推开。在图像文本匹配领域,大家通常采用的损失函数为:三元组排序损失(Triplet Ranking Loss),其的基本思想就是约束匹配的图文对相似度相对于不匹配图文对相似度高。为了提升训练效率,相对于匹配的图文对,我们仅约束最相关的不匹配图文对,即最难负例: \begin{equation}\label{E2} S(U, V) > S(U, V’) , \quad S(U, V) > S(U’, V). \end{equation} 其中$S(U, V)$为匹配的图文对,而$S(U, V’)$和$S(U’, V)$表示不匹配的图文对。   如何实现图像文本的语义对齐?现有工作可以大致分为两类:1)全局关联:以整个文本和图像作为对象学习语义关联;2)局部关联:以细粒度的图像显著区域和文本单词作为对象学习语义关联。早期的工作属于全局关联,即将整个图像和文本通过相应的深度学习网络映射至一个潜在的公共子空间,在该空间中图像和文本的跨模态语义关联相似度可以被直接衡量,并且约束语义匹配的图文对相似度大于其余不匹配的图文对。然而,这种全局关联范式忽略了图像局部显著信息以及文本局部重要单词的细粒度交互,阻碍了图像文本语义关联精度的进一步提升。因此,基于细粒度图像区域和文本单词的局部关联受到广泛的关注和发展,并快速占据主导优势。对于现有的图像文本跨模态语义关联范式,核心思想是挖掘所有图像片段和文本片段之间的对齐关系。 图2 图文匹配的发展现状 交叉注意力网络SCAN通过区域和单词之间的相互关注机制来捕捉所有潜在的局部对齐,并激发出了一系列工作。跨模态交叉注意力旨在挖掘所有图像区域和文本单词之间的对齐关系,通过局部语义对齐来推理整体相关性。得益 于细粒度的模态信息交互,基于交叉注意力的方法取得显著的性能提升,并成为当前图像文本跨模态语义关联的主流范式。 图3 跨模态交叉注意力范式SCAN   现有局部关联范式问题分析: 图4 动机示意图,现有注意力对齐范式的相关性区分是静态固定的,不能自适应动态的相关性学习过程。不可避免的导致次优的特征嵌入学习(不能最大化的分开相关和不相关跨模态特征)和引入干扰噪声(不能准确的排除无关语义)   对于给定的图像$V$和文本$U$,我们将图像表示为$V=\{v_j | j\in[1, n], v_j \in \mathbb{R}^{d}\}$,其中$n$为图像显著区域的个数,将文本表示为$U=\{u_i | i\in [1, m], u_i \in \mathbb{R}^{d}\}$,其中$m$为文本单词的个数。
阅读全文