论文笔记

欢迎访问ZJ新闻社SEO

专题：论文笔记

共25篇相关文章

如何编辑大型语言模型：面临的问题、方法及机遇？
论文为大语言模型知识编辑综述，发表于自然语言处理顶会ACL（原文链接）。由于目前存在广泛的模型编辑技术，但一个统一全面的分析评估方法，所以本文： 1、对LLM的编辑方法进行了详尽、公平的实证分析，探讨了它们各自的优势和劣势。 2、构建了一个...
1月前3阅读
MEND：如何实现大规模快速模型编辑？
论文发表于人工智能顶会ICLR（原文链接）。为了实现大规模编辑，提出基于梯度分解的模型编辑网络（Model Editor Networks with Gradient Decomposition, MEND）：训练一个小型辅助编辑网络的集合...
1月前3阅读
预训练Transformer中的知识神经元是如何工作的？
论文发表于自然语言处理顶会ACL-2022（原文链接）。本文引入知识神经元 (Knowledge Neuron) 的概念，初步研究了预训练Transformer中是如何存储事实知识的： 1、通过研究预训练的BERT，本文发现预训练语言模型的...
1月前3阅读
知识编辑对语言模型产生的涟漪效应如何评估？
论文发表于自然语言处理顶刊TACL-2024（原文链接）。目前模型编辑方法的评估主要集中在测试单个事实是否被成功注入，以及模型对其它事实的预测是否没有改变。作者认为这样的评估模式有限，因为注入一个事实会产生涟漪效应，模型应该同步更新一系列的...
1月前3阅读
MASS-EDITING MEMORY IN A TRANSFORMER（MEMIT）是什么？
论文发表于人工智能顶会ICLR（原文链接）。在模型编辑方法中，过去工作主要局限于更新单个事实。因此，基于ROME，本文开发了MEMIT，在大模型GPT-J（6B）和GPT-NeoX（20B）上实现了数千的批量编辑。阅读本文请同时参考原始论...
1月前3阅读
AlphaEdit：如何对语言模型进行零空间约束的知识编辑？
论文发表于人工智能顶会ICLR（原文链接）。基于定位和修改的模型编辑方法（针对ROME和MEMIT等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit： 1、在将保留知识应用于参数之前，将扰动投影到保留知...
1月前3阅读
UniEdit：首个大型开放域大模型知识编辑基准是啥？
随着大语言模型（LLM）的广泛应用，它们在医疗、金融、教育等关键行业扮演着愈发重要的角色。然而，一个被忽视的现实是：大模型的知识并不会自动更新，更不总是准确。当模型输出过时信息、错误事实甚至自信满满的“胡说八道”时，如何快速、精准、低成本地...
1月前2阅读
如何通过可解释的权重编辑减轻推理模型中过度简化的思考？
论文发表于NLP顶会EMNLP 2025（原文链接）。大模型CoT产生过短推理，即使简单数学问题也性能下降。本文研究推理长度如何嵌入推理模型的隐藏表示，以影响准确性： 1、发现，推理长度由表示空间中的线性方向决定，从而能沿着该方向引导模型，...
1月前2阅读
如何通过One-shot Entropy Minimization实现优化？
一篇还未发表的论文，但做了大量实验对熵最小化技巧提升模型推理能力进行了探索。本文训练了13440个大型语言模型，发现熵最小化（EM）只需要一个未标记的数据和10步优化，性能提升就比RL还强。基于两个直接而简单的假设：生成大型语言模型的采样...
1月前2阅读
EasyEdit2：如何构建一个简单易用的指导框架来编辑大型语言模型？
EasyEdit2——即插即用的LLM行为控制（Steering）框架： 1、支持广泛的测试时干预，包括安全性、情绪、个性、推理模式、事实性和语言特征。 2、关键模块：转向向量生成器和转向向量应用器。论文发表于EMNLP 2025 Sys...
1月前2阅读