大模型学习记录

欢迎访问ZJ新闻社SEO

专题：大模型学习记录

共4篇相关文章

大模型学习笔记（一）—— transformer是什么？
写在前面，一定要看懂self attention的代码实现，注意矩阵乘是谁@谁，矩阵乘不可以变换位置！！！ Attention的出现由于翻译任务往往不是1 vs 1的翻译，因此输入与输出不等长，所以出现了encoder-decoder的形...
9天前4阅读
大模型学习笔记（二）中，大语言模型的结构与预训练流程是怎样的？
常见的transformer架构包括：encoder-decoder, encoder only, decoder only，区别如下：模型类型输入输出示例模型应用场景 Encoder-only 文本（如句子）表示（embedd...
9天前2阅读
大模型学习笔记（三）—— 预训练语言模型实践，有哪些应用案例？
配合代码：大语言模型：从理论到实践，本文记录在跑模型代码时产生的一些疑问。数据集代码采用的时wikipedia和bookcorpus数据集，wikipedia是由Hugging Face提供的英文维基百科快照数据集，数据格式如下： {...
9天前2阅读
大模型学习笔记（四）—— 大语言模型预训练数据，如何进行？
数据处理典型的数据处理流程如图所示,主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。数据清洗收集来的数据往往具有不一样的格式，数据清洗的目的是剔除明显的垃圾和无效内容，统一格式，包括：格式清理：去除HTML标签、特殊符号、...
9天前2阅读