如何利用Dark UI和WordPress进行网站开发?
摘要:网站开发中常用的技术和工具,dark ui wordpress,视觉设计是什么,wordpress 关注微博对于序列级和词元级自然语言处理应用,BERT只需要最小的架构改变(额外的
网站开发中常用的技术和工具,dark ui wordpress,视觉设计是什么,wordpress 关注微博对于序列级和词元级自然语言处理应用#xff0c;BERT只需要最小的架构改变#xff08;额外的全连接层#xff09;#xff0c;如单个文本分类#xff08;例如#xff0c;情感分析和测试语言可接受性#xff09;、文本对分类或回归#xff08;例如#xff0c;自然语言推… 对于序列级和词元级自然语言处理应用BERT只需要最小的架构改变额外的全连接层如单个文本分类例如情感分析和测试语言可接受性、文本对分类或回归例如自然语言推断和语义文本相似性、文本标记例如词性标记和问答。 在下游应用的监督学习期间额外层的参数是从零开始学习的而预训练BERT模型中的所有参数都是微调的。 我们可以针对下游应用对预训练的BERT模型进行微调例如在SNLI数据集上进行自然语言推断。 在微调过程中BERT模型成为下游应用模型的一部分。仅与训练前损失相关的参数在微调期间不会更新。 在来自Transformers的双向编码器表示BERT_流萤数点的博客-CSDN博客中我们介绍了一个名为BERT的预训练模型该模型可以对广泛的自然语言处理任务进行最少的架构更改。一方面在提出时BERT改进了各种自然语言处理任务的技术水平。另一方面原始BERT模型的两个版本分别带有1.1亿和3.4亿个参数。因此当有足够的计算资源时我们可以考虑为下游自然语言处理应用微调BERT。
下面我们将自然语言处理应用的子集概括为序列级和词元级。在序列层次上介绍了在单文本分类任务和文本对分类或回归任务中如何将文本输入的BERT表示转换为输出标签。在词元级别我们将简要介绍新的应用如文本标注和问答并说明BERT如何表示它们的输入并转换为输出标签。在微调期间不同应用之间的BERT所需的“最小架构更改”是额外的全连接层。在下游应用的监督学习期间额外层的参数是从零开始学习的而预训练BERT模型中的所有参数都是微调的。
1.单文本分类
单文本分类将单个文本序列作为输入并输出其分类结果。语言可接受性语料库Corpus of Linguistic AcceptabilityCOLA是一个单文本分类的数据集它的要求判断给定的句子在语法上是否可以接受。 (Warstadt et al., 2019)。例如“I should study.”是可以接受的但是“I should studying.”不是可以接受的。 来自Transformers的双向编码器表示BERT_流萤数点的博客-CSDN博客描述了BERT的输入表示。BERT输入序列明确地表示单个文本和文本对其中特殊分类标记“cls”用于序列分类而特殊分类标记“sep”标记单个文本的结束或分隔成对文本。如 图15.6.1所示在单文本分类应用中特殊分类标记“cls”的BERT表示对整个输入文本序列的信息进行编码。作为输入单个文本的表示它将被送入到由全连接稠密层组成的小多层感知机中以输出所有离散标签值的分布。
2.文本对分类或回归
自然语言推断属于文本对分类这是一种对文本进行分类的应用类型。 自然语言推断natural language inference主要研究 假设hypothesis是否可以从前提premise中推断出来 其中两者都是文本序列。 换言之自然语言推断决定了一对文本序列之间的逻辑关系。这类关系通常分为三种类型 蕴涵entailment假设可以从前提中推断出来。 矛盾contradiction假设的否定可以从前提中推断出来。 中性neutral所有其他情况。 自然语言推断也被称为识别文本蕴涵任务。 例如下面的一个文本对将被贴上“蕴涵”的标签因为假设中的“表白”可以从前提中的“拥抱”中推断出来。 前提两个女人拥抱在一起。 假设两个女人在示爱。 下面是一个“矛盾”的例子因为“运行编码示例”表示“不睡觉”而不是“睡觉”。 前提一名男子正在运行Dive Into Deep Learning的编码示例。 假设该男子正在睡觉。 第三个例子显示了一种“中性”关系因为“正在为我们表演”这一事实无法推断出“出名”或“不出名”。 前提音乐家们正在为我们表演。 假设音乐家很有名。 自然语言推断一直是理解自然语言的中心话题。它有着广泛的应用从信息检索到开放领域的问答。 以一对文本作为输入但输出连续值语义文本相似度是一个流行的“文本对回归”任务。 这项任务评估句子的语义相似度。例如在语义文本相似度基准数据集Semantic Textual Similarity Benchmark中句子对的相似度得分是从0无语义重叠到5语义等价的分数区间 (Cer et al., 2017)。我们的目标是预测这些分数。
