图像文本跨模态细粒度语义对齐的置信度校正机制,在AAAI2022中如何创新?

摘要:论文链接:Show Your Faith: Cross-Modal Confidence-Aware Network for Image-Text Matching (跨模态置信度感知的图像文本匹配网络)AAAI
论文链接:Show Your Faith: Cross-Modal Confidence-Aware Network for Image-Text Matching(跨模态置信度感知的图像文本匹配网络)AAAI 2022 代码主页:https://github.com/CrossmodalGroup/CMCAN 主要优势: 1)首次提出跨模态置信度衡量机制,通过局部对齐语义与全局对齐语义的关系,进一步计算局部对齐语义是否被真正描述的可信程度。从而更加准确的实现细粒度的跨模态局部语义对齐。 2)提出一种新颖的置信度推理方法,以全局文本作为桥梁,计算局部图像区域是否被全局文本描述的置信度。 3)在主流数据集上取得SOTA性能。 一、前言   图像文本匹配任务定义:也称为跨模态图像文本检索,即通过某一种模态实例, 在另一模态中检索语义相关的实例。例如,给定一张图像,查询与之语义对应的文本,反之亦然。具体而言,对于任意输入的文本-图像对(Image-Text Pair),图文匹配的目的是衡量图像和文本之间的语义相似程度。 图1 图文匹配的输入和输出 核心挑战:图像文本跨模态语义关联致力于弥合视觉模态和语言模态之间的语义鸿沟,目的是实现异质模态(底层像素组成的图像和高层语义向量表示的文本)间的准确语义对齐,即挖掘和建立图像和文本的跨模态语义一致性关联对应关系。 现状分析:现有的图像文本图像文本匹配工作可以大致分为两类:1)全局关联:以整个文本和图像作为对象学习语义关联;2)局部关联:以细粒度的图像显著区域和文本单词作为对象学习语义关联。早期的工作属于全局关联,即将整个图像和文本通过相应的深度学习网络映射至一个潜在的公共子空间,在该空间中图像和文本的跨模态语义关联相似度可以被直接衡量,并且约束语义匹配的图文对相似度大于其余不匹配的图文对。然而,这种全局关联范式忽略了图像局部显著信息以及文本局部重要单词的细粒度交互,阻碍了图像文本语义关联精度的进一步提升。因此,基于细粒度图像区域和文本单词的局部关联受到广泛的关注和发展,并快速占据主导优势。对于现有的图像文本跨模态语义关联范式,核心思想是挖掘所有图像片段和文本片段之间的对齐关系。 图2 图文匹配的发展现状 交叉注意力网络SCAN通过区域和单词之间的相互关注机制来捕捉所有潜在的局部对齐,并激发出了一系列工作。跨模态交叉注意力旨在挖掘所有图像区域和文本单词之间的对齐关系,通过局部语义对齐来推理整体相关性。得益 于细粒度的模态信息交互,基于交叉注意力的方法取得显著的性能提升,并成为当前图像文本跨模态语义关联的主流范式。 图3 跨模态交叉注意力范式SCAN   动机:现有的方法主要通过关联局部视觉-语义来匹配区域-单词,再机械地聚合区域-单词匹配对之间的局部语义相似度来衡量图像-文本的整体相关性。然而在现有的方法中,局部语义相似度,即区域-单词匹配对的相关性,被以默认的匹配置信度1被聚合,这是不合理的。因为匹配置信度,即区域-单词匹配对的可信程度,取决于全局图像-文本语义,相互间存在差异。也就是说,某局部区域-单词对虽然是匹配的,但它与全局的图像-文本语义并不一致,是不可信任的。因此,为了揭示局部语义相似度对整体跨模态相关性的真实合理的贡献水平,需要明确表示区域-单词对在匹配中的置信度。在不考虑置信度的情况下,与整体语义不一致的区域-单词匹配对将被不加区分地聚合,从而干扰整体相关性的度量。 图4 动机示意图,通过进一步衡量每个局部对齐语义的置信程度,实现更加准确的跨模态对齐 二、总体框架 图5 总体框架 整个方法分为三部分:1)图像与文本特征表示;2)区域-单词匹配置信度推理;3)区分匹配置信度的跨模态相关性度量。对于给定的图像和文本,首先进行图像与文本的特征表示,以及各图像区域的视觉语义扩展,再以区域的视觉上下文和全文之间的语义相似度被包含在图像-文本的整体语义相似度中的程度,即该区域被文本所真正描述的相对程度,来推断其匹配置信度,最后根据置信度在整体相关性聚合中过滤掉与全局语义不一致的不可信局部对齐信息。   1:图像与文本特征表示   文本采用双向GRU编码。图像采用在Visual Genomes数据集上训练完备的以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上36个显著区域的特征$\boldsymbol{x}_i$,然后将$\boldsymbol{x}_i$线性映射为共同嵌入空间中的视觉向量$\boldsymbol{v}_i$ 。
阅读全文