如何改进WordPress小说主题以优化网站内容?

摘要:怎么优化网站内容,wordpress 小说模版,树莓派搭建Wordpress系统,叫外包公司做网站不肯给源代码的目录 摘要1 引言2 相关工作3 方法4 实验5 结果6 结论7 局限性和未来工作 关注公众号TechLead&
怎么优化网站内容,wordpress 小说模版,树莓派搭建Wordpress系统,叫外包公司做网站不肯给源代码的目录 摘要1 引言2 相关工作3 方法4 实验5 结果6 结论7 局限性和未来工作 关注公众号TechLead#xff0c;分享AI与云服务技术的全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验#xff0c;同济本复旦硕#xff0c;复旦机器人智能实验室成员#xff0… 目录 摘要1 引言2 相关工作3 方法4 实验5 结果6 结论7 局限性和未来工作 关注公众号TechLead分享AI与云服务技术的全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验同济本复旦硕复旦机器人智能实验室成员阿里云认证的资深架构师项目管理专业人士上亿营收AI产品研发负责人。 摘要 尽管通过扩展导致具有数千亿参数的大型网络在统治和效率方面表现突出但训练过参数化模型的必要性仍然难以理解且替代方法不一定能使训练高性能模型的成本降低。在本文中我们探索了低秩训练技术作为训练大型神经网络的替代方法。我们引入了一种名为 ReLoRA 的新方法该方法利用低秩更新来训练高秩网络。我们将 ReLoRA 应用于预训练最多达 350M 参数的变换器语言模型并展示了与常规神经网络训练相当的性能。此外我们观察到 ReLoRA 的效率随着模型大小的增加而提高使其成为训练多十亿参数网络的有效方法。我们的研究发现揭示了低秩训练技术的潜力及其对扩展规律的影响。代码已在 GitHub 上提供。 1 引言 在过去的十年中机器学习领域一直被训练越来越多参数化的网络或采取“叠加更多层”的方法所主导。大型网络的定义已经从具有1亿个参数的模型演变到数百亿个参数这使得与训练这样的网络相关的计算成本对大多数研究团队来说变得过于昂贵。尽管如此与训练样本相比需要训练数量级更多的参数的模型的必要性在理论上仍然理解不足。 例如更有效的计算扩展最优化、检索增强模型、以及通过更长时间训练较小模型的简单方法等替代扩展方法都提供了新的权衡。然而它们并没有让我们更接近理解为什么我们需要过参数化的模型也很少使这些模型的训练民主化。例如训练RETRO需要一套复杂的训练设置和基础设施能够快速搜索数万亿的标记而训练LLaMA-6B仍然需要数百个GPU。 相比之下像零冗余优化器、16位训练、8位推断和参数有效微调PEFT等方法在使大型模型更易访问方面发挥了关键作用。具体来说PEFT方法使得在消费者硬件上微调十亿规模的语言或扩散模型成为可能。这引发了一个问题这些方法是否也能惠及预训练 一方面预训练正是允许对网络进行微小修改以使其适应新任务的步骤。Aghajanyan等人已经证明预训练网络越多学习任务所需的更改的秩就越小。另一方面多项研究已经证明了语言和视觉模型提取和利用的特征的简单性以及它们的低固有维度。例如变换器中的注意力模式通常呈现小秩这已经被成功用于开发更高效的注意力变体。此外训练过程中也并不需要过参数化。彩票票据假说从经验上证明在初始化或训练早期时存在子网络 - 获胜票据当单独训练时可以达到整个网络的性能。 在本研究中我们专注于低秩训练技术并介绍了ReLoRA它使用低秩更新来训练高秩网络。我们凭经验证明ReLoRA执行高秩更新并实现与常规神经网络训练相似的性能。ReLoRA的组成部分包括神经网络的初始完全秩训练类似于Frankle等人LoRA训练重新开始锯齿状学习速率计划以及部分优化器重置。我们对ReLoRA在高达350M参数的变换器语言模型上的效果进行评估。我们选择专注于自回归语言建模因为这种方法在神经网络的大多数应用中已经展示了其通用性。最后我们观察到ReLoRA的效率随着模型大小的增加而增加使其成为有效训练多十亿参数网络的可行选择。 本研究中的每个实验均未使用超过8个GPU天的计算。 2 相关工作 缩放与效率 过参数化与神经网络的可训练性和泛化之间的关系已经得到了广泛的研究但仍然是一个谜。此外缩放法则展示了网络大小与其在各种模态之间的性能之间存在简单而强烈的幂律依赖关系。这一发现不仅支持过参数化而且还鼓励对非常消耗资源的神经网络进行训练。然而彩票假设表明原则上可以最小化过参数化。具体来说它表明在训练初期存在可以训练以达到整个网络性能的子网络中奖彩票。 参数高效微调 Aghajanyan等人发现预训练减少了网络的变化量或其固有维数以通过微调学习新任务。即更大的网络或在更多数据上预训练的网络在学习新任务时需要较小的修改就其范围的秩而言。这解释了参数高效微调方法的成功并且还激发了像LoRA和Compacter这样的低秩微调方法的发展。 低秩神经网络训练 在CNN压缩、正则化和高效训练的背景下已经探讨了训练低秩表示。
阅读全文