如何优化企业网站结构以增强浙江地区的SEO效果?

摘要:企业网站结构,浙江seo关键词,flash全站案例网站预览,没人注意的暴利行业论文地址:Language Models are Few-Shot Learners 往期相关文章:
企业网站结构,浙江seo关键词,flash全站案例网站预览,没人注意的暴利行业论文地址#xff1a;Language Models are Few-Shot Learners 往期相关文章#xff1a; ChatGPT追祖寻宗#xff1a;GPT-1论文要点解读_五点钟科技的博客-CSDN博客ChatGPT追祖寻宗#xff1a;GPT-2论文要点解读_五点钟科技的博客-CSDN博客 本文的标题之所以取名技术报告而不… 论文地址Language Models are Few-Shot Learners 往期相关文章 ChatGPT追祖寻宗GPT-1论文要点解读_五点钟科技的博客-CSDN博客ChatGPT追祖寻宗GPT-2论文要点解读_五点钟科技的博客-CSDN博客 本文的标题之所以取名技术报告而不是论文是因为长达63页的GPT-3的这篇文章它不是一个发表的论文而是一份报告文中也没有针对模型的结构和整个训练过程的细节介绍基本上都是在讨论因此本博客也只挑一些个人觉得值得关注的点介绍一下。  Abstract 回顾一下GPT-1和GPT-2GPT-1中主要用到了改变输入样式的方式让模型学会执行不同任务GPT-2作者通篇在强调零样本学习放弃用在输入中加入特殊符号区分不同任务的做法改用纯自然语言输入的方式执行不同的任务而在GPT-3中作者又不再强调零样本的事了也认为依靠大量的标注数据进行任务相关的微调不是个好主意因为作者提到人类对于新的任务的学习往往只需要少量的样本就能学到新知识估计作者认为也不能一个样本都不给因此作者想到了一个few-shot的方法牛掰当然也提到了one-shot的方法这个后面会说。摘要中作者主要说明了他们开发出一个包含1750亿个参数的GPT-3比之前非稀疏的模型大10倍为啥是非稀疏的因为稀疏模型的权重存在很多0会导致模型虚大所以 没有对比意义。其次作者发现GPT-3生成的新闻文本连人类都难以分辨真假是不是人写的。 1. Instruct  接下来作者提到了目前对于语言模型训练的范式就是在一个任务无关的数据集上预训练再在特定任务数据集上做微调但是这种范式存在很大的问题就是这样训练模型仍然需要大量的标注数据去做微调具体地作者列出了3个问题 总结来说主要是3个方面的问题 标注数据集的依赖即模型的训练需要大量的标注数据这是十分困难的在微调模型表现的好不见得是因为预训练模型泛化能力强有可能是因为预训练使用的大批量数据涵盖了微调数据的信息如果微调的数据在预训练中没有相应的分布那么模型的表现可能就变差了。人类在学习某个新的任务时往往不需要有大量的例子进行辅助比如让你认识猫那么其实给你几只猫的样子后期不管什么颜色什么品种的猫你都大概率能区分出它是只猫。而GPT-3就想类比人类学习的过程认为模型也不需要大量的任务相关的例子来学习这就是few-shot。 为了解决上述的问题作者也提出了他们的思路这一段中作者提到了一个比较新的名词叫元学习meta-learning还提到了“in-context learning”这是上下文学习的意思。对于元学习其实也没那么高深说白了就是将大量的不同任务的样本同时送给模型做预训练和GPT2中的多任务学习形似而在做in-context learning的时候根据示例样本的多少区分zero-shot、one-shot和few-shot所以这个in-context learning过程有没有在做梯度更新是没有的。作者对于元学习和in-context learning在本页的尾部做了解释 作者说了之前提到的零样本学习不是真的从零样本的情况下学习为了避免这种歧义所以用了元学习来代替预训练过程用in-context leaning代表前向传播过程注意可以认为是推理因为不涉及到梯度的更新。而且根据在推理过程所依赖示例样本的多少划分零样本、单样本和少样本。说实话有点绕如果不深入分析作者的意思的话困扰更大。作者还附上了一幅图来说明这个过程 outer loop部分是无监督预训练过程底下蓝色部分就是in-context learning。单从图上来看整个outer loop部分是无监督预训练在这个过程中分别包含了不同的in-context learning阶段可是按照文中的意思预训练过程是不可能不做梯度更新的而in-context learning又是不做梯度更新的所以上图可能表示的有些问题所以我认为这个图并不是在讲GPT-3是怎么训练的而是告诉我们有这么个组成阶段具体的就是有个无监督预训练阶段而in-context learning只发生在前向传播阶段作者想告诉我们在预训练阶段只要数据量足够大那么就很有可能包括了in-context learning过程中的任务相关的示例样本。大家看看就好挺奇怪的反正是。
阅读全文