LLM大模型技术中哪些关键概念不可或缺?
摘要:LLM大模型和Agent应用开发相关文章合集: https:github.comjiujuanllm-agent-notebook 大语言模型(Large Language Model,简称LLM)是人工智能领域最重要的技术突破之一
LLM大模型和Agent应用开发相关文章合集:
https://github.com/jiujuan/llm-agent-notebook
大语言模型(Large Language Model,简称LLM)是人工智能领域最重要的技术突破之一,它正在深刻改变人类与机器交互的方式。理解 LLM 的核心概念对于从事 AI 研究、应用开发和工程实践的人员来说至关重要。
本文系统梳理了大模型领域最关键的 40 个重要概念,涵盖架构、训练、推理、评估、应用、安全与优化等六大维度,帮助读者建立完整的LLM 知识体系。
它们的分层关系图:
(AI生成的图片)
一、模型架构相关概念
模型架构是 LLM 的根基,决定了模型的表达能力、计算效率和可扩展性。现代大模型几乎全部采用 Transformer 架构作为基础,这一架构的革命性在于其完全基于注意力机制实现序列建模,摆脱了传统循环神经网络在并行计算和长距离依赖方面的限制。
1. Transformer架构
Transformer 是 2017 年由谷歌研究团队提出的革命性神经网络架构,其核心创新在于完全摒弃了传统的循环和卷积结构,仅使用自注意力机制(Self-Attention)来建模序列中的依赖关系。
Transformer 架构由编码器(Encoder)和解码器(Decoder)两部分组成,编码器负责理解输入文本的语义信息,解码器则基于编码器的输出生成目标序列。这种架构设计使模型能够并行处理序列中的所有位置,显著提升了训练效率,同时也具备更强的长距离依赖建模能力。Transformer 的提出标志着 NLP 领域进入了一个全新的时代,后续几乎所有重要的大模型都以此为基础进行构建。
2. 自注意力机制
自注意力机制(Self-Attention)是 Transformer 架构的核心组件,它允许模型在处理每个词时同时考虑序列中的所有其他词,从而建立任意位置之间的直接联系。
自注意力的计算过程包括三个关键步骤:首先将每个词的嵌入向量通过三个独立的线性变换生成查询(Query)、键(Key)和值(Value)向量;然后计算查询与所有键的相似度得分,得到注意力权重;最后用注意力权重对值向量进行加权求和,得到最终的输出。这种设计使模型能够动态地关注与当前词最相关的上下文信息,无论这些信息在序列中的距离有多远。
自注意力机制的数学表达看似复杂,但其核心思想简洁而优雅:它本质上是一种软性的信息检索机制,每个位置都可以从所有位置获取信息。
3. 多头注意力
多头注意力(Multi-Head Attention)是 Transformer 中另一个关键创新,它将自注意力机制扩展为多个并行的“注意力头”。每个注意力头都拥有独立的查询、键和值的线性变换参数,能够学习到不同类型的语义关系。例如,某些注意力头可能专注于捕捉语法结构关系,另一些可能关注语义相似性,还有些可能建模指代关系。
多头注意力的输出是将所有注意力头的结果拼接后再通过一个线性变换得到。这种设计极大地增强了模型的表达能力,使其能够同时建模多种不同类型的依赖关系。现代大模型通常使用数十个甚至上百个注意力头,如GPT-3 使用了 96 个注意力头,而一些更大型的模型则使用了更多的注意力头。
4. 位置编码
位置编码(Positional Encoding)是为了解决 Transformer 无法直接处理序列位置信息的问题而引入的。由于 Transformer 的自注意力机制本身对位置不敏感,需要显式地将位置信息注入到词的表示中。
原始论文提出了两种位置编码方法:一种是基于正弦和余弦函数的固定位置编码,另一种是可学习的位置编码。固定位置编码通过不同频率的正弦和余弦函数来编码位置,使得模型能够学习到相对位置关系。
近年来,旋转位置编码(RoPE)和相对位置编码等更先进的方法被提出并在实践中取得了良好效果。位置编码的设计对模型性能有重要影响,特别是在处理长序列任务时。
5. 前馈神经网络
在 Transformer 的每个编码器和解码器层中,除了注意力机制之外,还包含一个前馈神经网络(Feed-Forward Network,FFN)。这个前馈网络通常由两个线性变换组成,中间夹杂着非线性激活函数(如 ReLU 或 GELU)。
尽管注意力机制能够建模序列中的依赖关系,但前馈神经网络负责对每个位置的表示进行进一步的非线性变换和特征提取,是模型容量(Model Capacity)的重要来源。前馈神经网络的隐藏层维度通常是注意力输出维度的 2-4 倍,例如在 LLaMA 模型中,隐藏层维度达到了注意力学习维度的约 2.67 倍。这种设计使模型能够在保持计算效率的同时增加表达能力。
