TIE框架如何实现基于嵌入的增量时序知识图谱补全?

摘要:论文网址:https:dl.acm.orgdoi10.11453404835.3462961 Arxiv:https:arxiv.orgabs2104.08419 论文提出一种用增量学习思想做时序知识图谱补全(Tempor
论文网址:https://dl.acm.org/doi/10.1145/3404835.3462961   Arxiv:https://arxiv.org/abs/2104.08419   论文提出一种用增量学习思想做时序知识图谱补全(Temporal Knowledge Graph Completion, TKGC)的学习框架——Time-aware Incremental Embedding (TIE)。看框架名是提出了一种学习知识图嵌入的方法。增量学习是为了缓解模型在学习新增数据时产生的对过去所学的灾难性遗忘问题。   时序知识图谱(Temporal Knowledge Graph, TKG)可以看这篇简单了解。知识图谱(Knowledge Graph, KG)的事实表示为头实体、关系、尾实体 三元组$(h,r,t)$。TKG额外增加了时间戳,将事实表示为头实体、关系、尾实体、时间戳 四元组 $(s,r,o,t)$,从而能考虑时序动态。时间戳通常以年为计,如$(Obama, visit, China, 2014)$。TKG快照(snapshot)是指某个时间步下的TKG,它的包含的事实具有相同的时间戳。那么跨越一个个快照来推理缺失事实的任务,就称为TKGC。 引出   论文主要考虑过去的TKGC(Temporal KG Completion)模型学习模式的三个问题:   1、之前的方法并没有显式地将TKGC构造为一种增量学习问题——使模型能够适应训练数据的变化并能有效保留之前所学。它们将TKGC任务简单构造成KGC任务,仅仅在新的KG快照上对模型进行微调,导致灾难性遗忘。这点我不能苟同,既然在新的时间步下,过去的数据相对于当前已经无意义了。我就算把之前所学全都忘了,从新随机初始化模型在整个新快照上训练也行啊。我感觉作者想表达:不能有效利用之前时间步已经学到的与当前时间步相同的信息,导致过去训练的浪费。   2、以前的评价指标只能对整体的链接预测质量进行评估,例如Hits@10和MRR,而忽略了TKG的动态方面,缺少能评估模型对已删除事实的遗忘程度的指标。比如对于查询 (?, presidentOf, USA, 2021) ,我们希望模型对 Biden 的排名高于 Trump。   3、过去的方法在训练时一次性跨越了所有时间步,无法让模型学习到从无到有的过程,不符合现实所需。   根据以上分析,本文做法如下:   1、将增量学习思想引入TKGC,提出incremental TKGC任务,并构建了TIE训练框架。   2、提出新的评估标准Deleted Facts Hits@10 (DF) 和 Reciprocal Rank Difference Measure (RRD)。   3、提出框架随着时间步按顺序进行训练,每次仅使用下一步快照更新的事实,也就是增量学习的基本思想。从而模型能满足动态更新的同时,还有较高的训练效率。论文展示了它的训练效率(十倍于之前的微调模型),并且有与之前的训练方式相似的性能。 问题的定义和框架 问题定义   TKG被定义为KG的快照的集合,即$\mathcal{G}=\{G^1,G^2,...,G^T\}$,$T$表示TKG的总时间步数。每个KG快照被表示为$G^t=\{E^t,R^t,D^t\}$。其中$E^t$,$R^t$和$D^t$分别表示该快照的实体集合、关系集合以及事实集合。事实由头实体、关系、尾实体、时间戳 四元组$(s,r,o,t)$表示。假设$\bar{D}^t$为$t$时序下的真实事实四元组集合,我们已知$D^t$,则未知事实表示为$D_{test}^t=\bar{D}^t \backslash D^t$。对于$(s,r,o,t)\in D_{test}^t$以及查询$(s,r,?,t)$,TKGC的目标就是使$o$的预测排名靠前。   编码器解码器框架   论文提出的TIE框架分为为编码器和解码器两个部分。   编码器:编码器将实体和关系编码为$d$维的嵌入向量。论文本身并不提出新的嵌入向量的表示方法,它用两个之前提出的时序知识图嵌入方法来对TIE框架进行测试,DE和HyTE(解读)。为了引入时序信息,DE利用训练参数直接将其融入嵌入向量的一部分,HyTE则将关系表示投影到与时序相关的超平面。论文只列举了DE的计算方式,式 (1)。   解码器:解码器就是某个事实的真实性的打分函数,文中直接用非时序KGC的打分方法,如式(2)所示。论文分别用ComplEx和TransE作为DE和HyTE的解码器。 评价指标   标准TKGC评价指标就是用Hits@k等,在某个KG快照上进行,如论文式 (3)。
阅读全文