专题:大模型学习记录
共4篇相关文章

大模型学习笔记(一)—— transformer是什么?
写在前面,一定要看懂self attention的代码实现,注意矩阵乘是谁@谁,矩阵乘不可以变换位置!!! Attention的出现 由于翻译任务往往不是1 vs 1的翻译,因此输入与输出不等长,所以出现了encoder-decoder的形...

大模型学习笔记(二)中,大语言模型的结构与预训练流程是怎样的?
常见的transformer架构包括:encoder-decoder, encoder only, decoder only,区别如下: 模型类型 输入 输出 示例模型 应用场景 Encoder-only 文本(如句子) 表示(embedd...

大模型学习笔记(三)—— 预训练语言模型实践,有哪些应用案例?
配合代码:大语言模型:从理论到实践,本文记录在跑模型代码时产生的一些疑问。 数据集 代码采用的时wikipedia和bookcorpus数据集,wikipedia是由Hugging Face提供的英文维基百科快照数据集,数据格式如下: {...

大模型学习笔记(四)—— 大语言模型预训练数据,如何进行?
数据处理 典型的数据处理流程如图所示,主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。 数据清洗 收集来的数据往往具有不一样的格式,数据清洗的目的是剔除明显的垃圾和无效内容,统一格式,包括: 格式清理:去除HTML标签、特殊符号、...
