CVPR2022的跨模态语义关联对齐检索,图像文本匹配是啥?

摘要:论文链接:Negative-Aware Attention Framework for Image-Text Matching (基于负感知注意力的图文匹配,CVPR2022) 代码主页:https:githu
论文链接:Negative-Aware Attention Framework for Image-Text Matching(基于负感知注意力的图文匹配,CVPR2022) 代码主页:https://github.com/CrossmodalGroup/NAAF 主要优势 (Highlights): 1)不额外添加任何学习参数前提下,在基础基线SCAN上取得显著性能提升,达到SOTA; 2)模型设计简单有效,只需要SCAN 的文本-图像(Text-to-Image)单方向计算,可以大幅减少基于注意力的匹配方法检索耗时。注意的是,本文设计的不匹配挖掘模块中的相关性和不相关性采样,只需要在训练中执行,因此,不额外增加任何推理计算负担。 3)显式的跨模态语义对齐相关性和不相关性学习。结合最优的相关性区分学习,构造一种联合的优化框架,实现更加精确的细粒度语义对齐。 一、前言 图像文本匹配任务定义:也称为跨模态图像文本检索,即通过某一种模态实例, 在另一模态中检索语义相关的实例。例如,给定一张图像,查询与之语义对应的文本,反之亦然。具体而言,对于任意输入的文本-图像对(Image-Text Pair),图文匹配的目的是衡量图像和文本之间的语义相似程度。 图1 图文匹配的输入和输出 核心挑战:图像文本跨模态语义关联致力于弥合视觉模态和语言模态之间的语义鸿沟,目的是实现异质模态(底层像素组成的图像和高层语义向量表示的文本)间的准确语义对齐,即挖掘和建立图像和文本的跨模态语义一致性关联对应关系。 现状分析:现有的图像文本图像文本匹配工作可以大致分为两类:1)全局关联:以整个文本和图像作为对象学习语义关联;2)局部关联:以细粒度的图像显著区域和文本单词作为对象学习语义关联。早期的工作属于全局关联,即将整个图像和文本通过相应的深度学习网络映射至一个潜在的公共子空间,在该空间中图像和文本的跨模态语义关联相似度可以被直接衡量,并且约束语义匹配的图文对相似度大于其余不匹配的图文对。然而,这种全局关联范式忽略了图像局部显著信息以及文本局部重要单词的细粒度交互,阻碍了图像文本语义关联精度的进一步提升。因此,基于细粒度图像区域和文本单词的局部关联受到广泛的关注和发展,并快速占据主导优势。对于现有的图像文本跨模态语义关联范式,核心思想是挖掘所有图像片段和文本片段之间的对齐关系。 图2 图文匹配的发展现状 交叉注意力网络SCAN通过区域和单词之间的相互关注机制来捕捉所有潜在的局部对齐,并激发出了一系列工作。跨模态交叉注意力旨在挖掘所有图像区域和文本单词之间的对齐关系,通过局部语义对齐来推理整体相关性。得益 于细粒度的模态信息交互,基于交叉注意力的方法取得显著的性能提升,并成为当前图像文本跨模态语义关联的主流范式。 图3 跨模态交叉注意力范式SCAN 动机:现有方法往往根据关联交互获取模态间的对齐语义。该过程的目的是 最大化图像和文本中的对齐语义相似度,并以此作为线索依据来计算图文匹配程度。具体的,在模态交互学习过程中,现有方法通常抑制非对齐线索的作用(通过一个 ReLU 函数抹除负关联分数),导致模型主要学习对齐语义的正面作用。然而,他们都忽略了图像-文本对中丰富的非对齐线索对于衡量 是否匹配也十分重要。因为当文本描述中出现图像里不存在的内容(非对齐的文本单词片段),那么这个 图像-文本对就是不匹配的。由此分析可知,非对齐的文本单词片段对于衡量图像-文本对是否匹配同样重要。最朴素的想法就是:我们可以充分的挖掘非对齐片段的负面作用,使原本检索在Top位置的错误匹配降低相似分值,从而尽可能的检索到正确的。如下图所示: 图4 负感知注意力动机分析 二、总体框架 图5 负感知注意力的总体框架图 Overview:负感知注意力网络包含两个主要模块:1)不匹配挖掘模块:通过建模匹配片段和不匹配片段的相似度分布,然后通过优化两个分布的最小错分概率求解最优的相似度区分阈值,从而尽可能的区分不匹配片段。2)正负双分支匹配模块:通过两种不同的掩码注意力机制,一方面关注匹配片段的相似度,另一方面精确计算不匹配片段的不相似度,联合利用前者的正面作用和后者的负面作用进行图像和文本之间的跨模态语义关联衡量。 亮点:①第一个联合利用匹配和不匹配片段的正面和负面作用,并显式挖掘不匹配片段的工作。②在训练过程中组成联合优化框架:前向优化:自适应地学习最优相关性阈值,获取更优的语义对齐;后向优化:由于最优阈值在参与注意力计算过程,因此在梯度反向传播优化时,会促使相关和不相关的相似度逐渐分离,从而学习更有区分性的图像文本特征嵌入。
阅读全文