专题:自然语言处理
共25篇相关文章

NLTK或spaCy,如何高效总结NLP程序包使用技巧?
NLTK和SpaCy是NLP的Python应用,提供了一些现成的处理工具和数据接口。下面介绍它们的一些常用功能和特性,便于对NLP研究的组成形式有一个基本的了解。 NLTK Natural Language Toolkit (NLTK) 由...

如何高效记录使用Transformers包的每个细节?
Transformers是著名的深度学习预训练模型集成库,包含NLP模型最多,CV等其他领域也有,支持预训练模型的快速使用和魔改,并且模型可以快速在不同的深度学习框架间(PytorchTensorflowJax)无缝转移。以下记录基于H...

如何定位和编辑GPT中的事实关联?
论文发表于人工智能顶会NeurIPS(原文链接),研究了GPT(Generative Pre-trained Transformer)中事实关联的存储和回忆,发现这些关联与局部化、可直接编辑的计算相对应。因此: 1、开发了一种因果干预方法,...

如何通过离散键值适配器实现终身模型编辑以优雅地应对老龄化?
论文发表于人工智能顶会NeurIPS(原文链接)。当前的模型编辑器会因多次编辑损害模型性能,提出用于连续编辑的通用检索适配器(General Retrieval Adapters for Continual Editing, GRACE):...

如何编辑大型语言模型:面临的问题、方法及机遇?
论文为大语言模型知识编辑综述,发表于自然语言处理顶会ACL(原文链接)。由于目前存在广泛的模型编辑技术,但一个统一全面的分析评估方法,所以本文: 1、对LLM的编辑方法进行了详尽、公平的实证分析,探讨了它们各自的优势和劣势。 2、构建了一个...

MEND:如何实现大规模快速模型编辑?
论文发表于人工智能顶会ICLR(原文链接)。为了实现大规模编辑,提出基于梯度分解的模型编辑网络(Model Editor Networks with Gradient Decomposition, MEND):训练一个小型辅助编辑网络的集合...

预训练Transformer中的知识神经元是如何工作的?
论文发表于自然语言处理顶会ACL-2022(原文链接)。本文引入知识神经元 (Knowledge Neuron) 的概念,初步研究了预训练Transformer中是如何存储事实知识的: 1、通过研究预训练的BERT,本文发现预训练语言模型的...

知识编辑对语言模型产生的涟漪效应如何评估?
论文发表于自然语言处理顶刊TACL-2024(原文链接)。目前模型编辑方法的评估主要集中在测试单个事实是否被成功注入,以及模型对其它事实的预测是否没有改变。作者认为这样的评估模式有限,因为注入一个事实会产生涟漪效应,模型应该同步更新一系列的...

MASS-EDITING MEMORY IN A TRANSFORMER(MEMIT)是什么?
论文发表于人工智能顶会ICLR(原文链接)。在模型编辑方法中,过去工作主要局限于更新单个事实。因此,基于ROME,本文开发了MEMIT,在大模型GPT-J(6B)和GPT-NeoX(20B)上实现了数千的批量编辑。 阅读本文请同时参考原始论...

AlphaEdit:如何对语言模型进行零空间约束的知识编辑?
论文发表于人工智能顶会ICLR(原文链接)。基于定位和修改的模型编辑方法(针对ROME和MEMIT等)会破坏LLM中最初保存的知识,特别是在顺序编辑场景。为此,本文提出AlphaEdit: 1、在将保留知识应用于参数之前,将扰动投影到保留知...
