如何改进视觉语言跨模态特征语义相似度计算,构建表征空间维度语义依赖感知聚合算法?

摘要:论文链接:Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching (ACM MM23) 代码主页:https:github
论文链接:Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching (ACM MM23) 代码主页:https://github.com/CrossmodalGroup/X-Dim 主要优势 (Highlights): 1)模型设计简单有效,仅改变视觉特征和文本特征之间相似度计算的 维度对应聚合方式,在基础基线SCAN上取得显著性能提升,达到SOTA; 2)理论上分析,所提出方法等价于在相似度计算过程中引入核函数,理论上可以将原始表征空间从有限的$d$维变换到无限维高维空间,使特征表示更具备可区分性; 3)在跨模态对齐性能和表征学习上,所提方法能够实现更优的跨模态语义对齐精度,同时促进更好的跨模态表征学习。 一、前言 Motivation   图像-文本关联匹配的一般范式首先是将图像和文本映射到一个共享表示空间中,然后检查这两种模态之间的语义相似程度,如图1(a)所示。基于模态表示的粒度,现有方法大致可以分为两类:全局和局部。全局方法倾向于学习整个图像和文本的整体表示,以直接测量图像-文本相似性。与粗粒度的整体表示相比,局部方法考虑显著图像区域和文本词之间的细粒度对应关系,因此通常会导致更好的性能。其关键思想是学习所有单词-区域语义相似性以获取整体图像-文本关联性,其中广为研究的交叉注意力SCAN及其变种是这一研究路线中的主流方式。对于任意单词特征$\boldsymbol{u} =\{u_i\}_{i=1}^{d}$与区域特征$\boldsymbol{v} = \{v_i\}_{i=1}^{d}$之间的语义相似性,如图1(a)所示,现有方法通常采用隐式的独立聚合来反映所有维度对应关系,即$\sum_{i=1}^{d} s_i$,其中$s_i$可以通过内积操作中的标量$v_i$和标量$u_i$的乘积确定。换言之,对于共享表示空间中跨模态对应向量$\boldsymbol{s} = \{s_i\}_{i=1}^{d}$的聚合过程,现有方法的默认假设是任一个维度$s_i$都是孤立元素,并且彼此相互独立。 图1跨维度语义依赖感知建模的研究动机。 注:(a)对于在$d$维共享表示空间中映射的视觉区域和文本单词特征,可以表示为维度语义对应向量,现有的范式通常采用独立聚合方法,将所有维度对应独立聚合构成单词-区域的语义相似性。然而,如本章针对先进模型NAAF的调查实验所示,在表示空间中的维度并不是相互独立的,其中有部分维度具有显著倾向性,即统计共现概率,联合表示特定语义,例如图(b)为倾向表示语义‘dog’的维度,以及图(c)为倾向表示语义‘man’的维度。   然而,共享表示空间中的局部维度\textbf{{并非相互独立}}。为了验证这一观点,本章使用先进方法NAAF在Flickr30K测试数据集上进行了统计实验,以调查局部维度之间潜在的语义依赖性,即计算维度倾向于表达某种语义的共现概率。具体而言,对于具有相同语义的单词-区域对,其语义相似性反映在所有跨模态维度对应$s_i$的总和上,$s_i$越大,第$i$维度对该语义的贡献程度就越大。换句话说,共享空间中的第$i$维度更倾向于表示这一语义概念。例如,选取Flickr30K测试集上所有‘dog’语义的单词-区域对,本章首先获得所有跨模态语义对应向量,并收集每个向量中维度值最大的前$k$个${s_i}$的维度索引集合,即最显著反映‘dog’语义的$k$个维度($k$被设为50)。然后,本章计算维度索引的共现概率,如图1(b)所示,我们可以发现某些维度明显倾向于共同表示‘dog’的语义概念,例如索引为${838, 250, 46}$的维度,它们的共现概率超过$80\%$。类似地,对于‘man’的语义概念,如图1(c)所示,我们得到实验结果表明一些维度共享并倾向于表示这一语义。因此,共享空间中的维度并非完全独立,其中部分局部维度间存在潜在关系共同表示特定的语义,本章将其定义为跨维度语义依赖性。   我们认为现有方法通常利用维度独立聚合的方式,完全忽视了内在的依赖性,这可能会导致语义相似度和表示学习方面的局限性。首先,如图2(a)所示,在前向过程中,将维度对应聚合以构成语义相似度时,现有聚合方法中所有维度都是独立求和的,其中具有联合依赖性的维度(用相同颜色标记)不能被明确利用和相互增强,导致次优的相似度。其次,在优化信息的后向传播过程中,具有依赖性的维度不能共同优化,而是孤立地学习,这可能会损害表示学习。 图2 现有的维度语义依赖不感知聚合和所提维度语义依赖感知聚合的对比。
阅读全文