如何解决中国铁路建设监理协会官方网站在局域网环境下显示不全的问题?
摘要:中国铁路建设监理协会官方网站,wordpress 局域网 显示不全,阿里云 建设网站,做网站如何赚流量钱摘要 近年来,自我增强成为在低资源场景下提升命名实体识别性能的研究热点。Token substitutio
中国铁路建设监理协会官方网站,wordpress 局域网 显示不全,阿里云 建设网站,做网站如何赚流量钱摘要
近年来#xff0c;自我增强成为在低资源场景下提升命名实体识别性能的研究热点。Token substitution and mixup #xff08;token替换和表征混合#xff09;是两种有效提升NER性能的自增强方法。明显#xff0c;自增强方法得到的增强数据可能由潜在的噪声。先前的研究…摘要
近年来自我增强成为在低资源场景下提升命名实体识别性能的研究热点。Token substitution and mixup token替换和表征混合是两种有效提升NER性能的自增强方法。明显自增强方法得到的增强数据可能由潜在的噪声。先前的研究针对特定的自增强方法设计特定的基于规则约束来降低噪声。在这篇文章中我们反思了这两个典型的针对NER的自增强方法。提出来提出了一个联合的 meta-reweighting 的策略去实现自然整合。我们的方法很容易扩展到其他自增强方法Experiments on different Chinese and English NER benchmarks。我们的方法可以有效的提升自增强方法的表现。
介绍 NER目的是从一些无结构文本中提取预训练命名实体。是NLP的一个基础任务。几十年来都已经被广泛的研究。 近期supervised sequence labeling neural models推动NER不断取得效果。 基于神经网络的方法推动NER任务不断取得更好的表现但是其通常需要大规模标注数据这在真实场景中是不现实的 the low-resource setting with only a small amount of annotated corpus available普遍应用是更加切合实际的 The major motivation is to generate a pseudo training example set deduced from the original gold-labeled training data automatically a pseudo training example set: 伪训练示例集。由原始的基于标签的训练数据集自动推导。 a token-level task, token substitution.mixup.the ground-level inputs and the high-level hidden representations (低层次的输入和高层次的隐藏表示 数据自增强是一个小样本任务可行的解法对于 token-level 的 NER 任务token 替换和表征混合是常用的方法。但自增强也有局限性我们需要为每种特定的自增强方法单独进行一些设计来降低自增强所带来的噪声缓解噪声对效果的影响。本文提出了 meta-reweighting 框架将各类方法联合起来。
尽管如此我们尝试放宽前人方法中的约束得到更多的伪训练示例。这样必然会产生更多低质量增强样本。这可能会降低模型的效果。此我们提出 meta reweighting 策略来控制增强样本的质量。同时使用 example reweighting 机制可以很自然的将两种方法结合在一起。
数据集
最后on several Chinese and English NER benchmark datasets
our Approach Baseline model
基准模型架构 BERT-BiLSTM-CRF input representation
输入序列 X(x1,x2,⋯,xN)X (x_1,x_2,\cdots,x_N)X(x1,x2,⋯,xN) of length n使用预训练BERT,将其转换为 sequential hidden vectors e1,e2,⋯,eNBERT(x)e_1,e_2,\cdots,e_N BERT(x)e1,e2,⋯,eNBERT(x)
BiLSTM encoding
h1,h2,⋯,hnBiLSTM(e1,e2,⋯,eN)h_1,h_2,\cdots,h_n BiLSTM(e_1,e_2,\cdots,e_N)h1,h2,⋯,hnBiLSTM(e1,e2,⋯,eN)
CRF decoding
最后解码过程使用 CRF 进行解码先将得到的表征过一层线性层作为初始的标签分数定义一个标签转移矩阵 TTT 来建模标签之间的依赖关系**。
