LLM大模型技术中哪些关键概念不可或缺?
摘要:LLM大模型和Agent应用开发相关文章合集: https:github.comjiujuanllm-agent-notebook 大语言模型(Large Language Model,简称LLM)是人工智能领域最重要的技术突破之一
LLM大模型和Agent应用开发相关文章合集:
https://github.com/jiujuan/llm-agent-notebook
大语言模型(Large Language Model,简称LLM)是人工智能领域最重要的技术突破之一,它正在深刻改变人类与机器交互的方式。理解 LLM 的核心概念对于从事 AI 研究、应用开发和工程实践的人员来说至关重要。
本文系统梳理了大模型领域最关键的 40 个重要概念,涵盖架构、训练、推理、评估、应用、安全与优化等六大维度,帮助读者建立完整的LLM 知识体系。
它们的分层关系图:
(AI生成的图片)
一、模型架构相关概念
模型架构是 LLM 的根基,决定了模型的表达能力、计算效率和可扩展性。现代大模型几乎全部采用 Transformer 架构作为基础,这一架构的革命性在于其完全基于注意力机制实现序列建模,摆脱了传统循环神经网络在并行计算和长距离依赖方面的限制。
1. Transformer架构
Transformer 是 2017 年由谷歌研究团队提出的革命性神经网络架构,其核心创新在于完全摒弃了传统的循环和卷积结构,仅使用自注意力机制(Self-Attention)来建模序列中的依赖关系。
Transformer 架构由编码器(Encoder)和解码器(Decoder)两部分组成,编码器负责理解输入文本的语义信息,解码器则基于编码器的输出生成目标序列。这种架构设计使模型能够并行处理序列中的所有位置,显著提升了训练效率,同时也具备更强的长距离依赖建模能力。Transformer 的提出标志着 NLP 领域进入了一个全新的时代,后续几乎所有重要的大模型都以此为基础进行构建。
2. 自注意力机制
自注意力机制(Self-Attention)是 Transformer 架构的核心组件,它允许模型在处理每个词时同时考虑序列中的所有其他词,从而建立任意位置之间的直接联系。
自注意力的计算过程包括三个关键步骤:首先将每个词的嵌入向量通过三个独立的线性变换生成查询(Query)、键(Key)和值(Value)向量;然后计算查询与所有键的相似度得分,得到注意力权重;最后用注意力权重对值向量进行加权求和,得到最终的输出。这种设计使模型能够动态地关注与当前词最相关的上下文信息,无论这些信息在序列中的距离有多远。
自注意力机制的数学表达看似复杂,但其核心思想简洁而优雅:它本质上是一种软性的信息检索机制,每个位置都可以从所有位置获取信息。
3. 多头注意力
多头注意力(Multi-Head Attention)是 Transformer 中另一个关键创新,它将自注意力机制扩展为多个并行的“注意力头”。每个注意力头都拥有独立的查询、键和值的线性变换参数,能够学习到不同类型的语义关系。例如,某些注意力头可能专注于捕捉语法结构关系,另一些可能关注语义相似性,还有些可能建模指代关系。
多头注意力的输出是将所有注意力头的结果拼接后再通过一个线性变换得到。这种设计极大地增强了模型的表达能力,使其能够同时建模多种不同类型的依赖关系。现代大模型通常使用数十个甚至上百个注意力头,如GPT-3 使用了 96 个注意力头,而一些更大型的模型则使用了更多的注意力头。
4. 位置编码
位置编码(Positional Encoding)是为了解决 Transformer 无法直接处理序列位置信息的问题而引入的。由于 Transformer 的自注意力机制本身对位置不敏感,需要显式地将位置信息注入到词的表示中。
原始论文提出了两种位置编码方法:一种是基于正弦和余弦函数的固定位置编码,另一种是可学习的位置编码。固定位置编码通过不同频率的正弦和余弦函数来编码位置,使得模型能够学习到相对位置关系。
近年来,旋转位置编码(RoPE)和相对位置编码等更先进的方法被提出并在实践中取得了良好效果。位置编码的设计对模型性能有重要影响,特别是在处理长序列任务时。
5. 前馈神经网络
在 Transformer 的每个编码器和解码器层中,除了注意力机制之外,还包含一个前馈神经网络(Feed-Forward Network,FFN)。这个前馈网络通常由两个线性变换组成,中间夹杂着非线性激活函数(如 ReLU 或 GELU)。
尽管注意力机制能够建模序列中的依赖关系,但前馈神经网络负责对每个位置的表示进行进一步的非线性变换和特征提取,是模型容量(Model Capacity)的重要来源。前馈神经网络的隐藏层维度通常是注意力输出维度的 2-4 倍,例如在 LLaMA 模型中,隐藏层维度达到了注意力学习维度的约 2.67 倍。这种设计使模型能够在保持计算效率的同时增加表达能力。
6. 残差连接与层归一化
残差连接(Residual Connection)和层归一化(Layer Normalization)是 Transformer 训练稳定性的关键保障。残差连接将每一层的输入直接添加到该层的输出上,形成一个跨层的 shortcut 通道。这使得梯度能够直接流过网络,有效缓解了深层网络训练中的梯度消失问题。层归一化则对每个样本的隐藏状态向量进行归一化处理,使其均值为 0、方差为 1,这有助于稳定训练过程并加速收敛。在 Transformer 中,残差连接和层归一化通常被组织为“残差 → 层归一化 → 注意力 → 残差 → 层归一化 → 前馈网络”的结构,这种设计被后续大量研究和实践验证为最优方案之一。
7. 编码器-解码器架构
编码器-解码器(Encoder-Decoder)架构是 Transformer 的原始形态,最初用于机器翻译任务。编码器由多个 Transformer 层堆叠而成,负责将输入序列编码为连续的语义表示;解码器同样由多个 Transformer 层组成,但增加了掩码注意力(Masked Attention)机制以防止看到未来位置的信息。编码器-解码器架构的优势在于能够明确区分输入理解和输出生成两个阶段,这种设计特别适合序列到序列的转换任务。T5、BART等经典模型都采用这种架构。然而,近年来仅解码器(Decoder-only)架构因其简洁性和出色的性能表现而变得更加流行。
8. 仅解码器架构
仅解码器(Decoder-only)架构是当前最流行的 LLM 架构设计,GPT 系列模型就是典型代表。这种架构只包含解码器部分,使用掩码自注意力机制(Masked Self-Attention),确保每个位置只能关注其之前的位置,从而实现自回归生成。仅解码器架构的优势在于结构简单、训练高效,并且天然适合生成式任务。由于所有 token 都可以使用相同的处理方式,模型能够更好地学习通用的语言表示。此外,仅解码器架构还展现出强大的零样本(Zero-shot)和少样本(Few-shot)学习能力,这使其成为构建通用对话模型的首选架构。
9. 混合专家模型
混合专家模型(Mixture of Experts,MoE)是一种稀疏激活的模型架构,旨在大幅增加模型参数量的同时保持计算成本可控。MoE 的核心思想是将模型分解为多个“专家”子网络,每个输入只激活其中少数专家进行计算。具体来说,MoE 层包含多个专家网络和一个路由(Routing)网络,路由网络根据输入决定调用哪些专家以及如何整合他们的输出。这种设计使模型能够在不显著增加推理计算量的情况下拥有巨大的参数量。典型的 MoE 模型如 Switch Transformers 拥有数千亿参数,但实际激活的参数量只有几十亿,这使得训练和推理成本大大降低。MoE 架构代表了大规模语言模型发展的重要方向。
10. 旋转位置编码
旋转位置编码(Rotary Position Embedding,RoPE)是一种相对位置编码方法,近年来在 LLM 中得到广泛应用。RoPE 的核心思想是将位置信息编码为旋转矩阵,并将其应用到 Query 和 Key 向量上,从而使模型能够感知 token 之间的相对位置关系。与传统的绝对位置编码相比,RoPE 具有更好的外推能力,能够处理比训练时更长的序列。RoPE 的另一个优势是其计算效率高,不需要额外的可学习参数。由于这些优点,RoPE 已被 LLaMA、GLM 等众多主流模型采用,成为现代 LLM 的标准位置编码方案。
二、训练技术相关概念
训练是将海量数据转化为智能能力的过程,涉及到预训练、有监督微调、人类反馈强化学习等多个关键阶段。每个阶段都有其独特的技术要点和最佳实践,共同决定了最终模型的性能表现。
11. 预训练
预训练(Pretraining)是 LLM 训练流程的第一阶段,也是最关键的阶段。预训练通常在大规模无标注的文本语料库上进行,目标是让模型学习通用的语言知识和世界知识。预训练任务主要包括两种:掩码语言建模(Masked Language Modeling,MLM)和下一个词预测(Next Token Prediction,NTP)。MLM 任务类似于完形填空,随机遮盖输入中的一些 token,然后让模型预测被遮盖的内容;NTP 任务则是让模型根据前面的 token 预测下一个 token。预训练阶段需要消耗巨大的计算资源,例如 GPT-3 的预训练据估计消耗了约 355 GPU 年的计算量。预训练好的模型被称为基座模型(Base Model)或基础模型,它们具备了强大的语言理解能力,但可能不够对齐人类偏好。
12. 有监督微调
有监督微调(Supervised Fine-Tuning,SFT)是在预训练模型的基础上,使用标注好的下游任务数据进行进一步训练。SFT 的目标是让模型适应特定的任务或领域,常见的应用包括指令微调(Instruction Tuning)和领域适应。指令微调使用(指令,响应)对的数据集,训练模型理解和执行各种自然语言指令,这使得基座模型转变为指令遵循模型。SFT 通常只需要相对较少的数据和计算资源,但能够显著提升模型在特定任务上的性能。SFT 的数据质量和多样性对最终模型表现至关重要,低质量或不恰当的 SFT 数据可能导致模型性能下降甚至产生有害输出。
13. 人类反馈强化学习
人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)是当前最重要的模型对齐技术之一,它使模型能够学习人类的偏好和价值观。
RLHF 的流程通常包括三个步骤:首先训练一个奖励模型(Reward Model),它能够根据人类反馈学习对不同输出的评分;然后使用强化学习算法(通常是 PPO)来优化基础模型,使其生成能够获得更高奖励的输出。
RLHF 最初由 OpenAI 用于改进 GPT-3,目前已成为行业标准方法。RLHF 能够显著提升模型的有用性(Helpfulness)和无害性(Harmlessness),是构建安全可靠 LLM 的关键步骤。然而 RLHF 也存在一些挑战,如人类反馈的主观性、奖励模型的泛化问题等。
14. 直接偏好优化
直接偏好优化(Direct Preference Optimization,DPO)是 RLHF 的一种更简单的替代方案,它直接利用人类偏好数据优化模型,无需显式训练奖励模型。
DPO 的核心思想是将强化学习目标转化为监督学习目标,使得优化过程更加稳定和高效。具体来说,DPO 使用成对的偏好数据(一个chosen响应和一个rejected响应),通过最大化偏好响应的概率同时最小化非偏好响应的概率来更新模型参数。
实验表明,DPO 在多种任务上能够达到甚至超越 RLHF 的性能,同时训练过程更简单、计算成本更低。DPO 代表了模型对齐技术的发展方向,未来可能会得到更广泛的应用。
15. 指令微调
指令微调(Instruction Tuning)是一种特殊的 SFT 技术,专门用于提升模型的指令遵循能力。指令微调的数据集由大量(指令,输入,输出)三元组组成,涵盖了各种任务类型,如问答、总结、翻译、代码生成等。
通过在这种多样化的指令数据集上进行微调,模型能够学习理解和执行各种自然语言指令,而不仅仅是完成特定的预训练任务。指令微调是构建对话模型和助手模型的关键步骤,它使模型从“语言模型”转变为“指令遵循模型”。研究表明,指令微调不仅能提升模型的指令遵循能力,还能增强模型的零样本迁移能力。
16. 参数高效微调
参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)是一类旨在减少微调参数量的技术,使得在消费级硬件上微调大型模型成为可能。
常见的 PEFT 方法包括:LoRA(Low-Rank Adaptation)通过在预训练权重旁添加低秩矩阵来学习任务特定的知识;Prefix Tuning 在输入前添加可学习的虚拟 token;Adapter 在 Transformer 层中插入小型适配器模块。
PEFT 的核心优势在于大大减少了微调所需的计算资源和存储成本,同时能够保持与全参数微调相当的性能。这对于资源有限的团队和研究者来说尤为重要,使得他们也能够参与到大模型的定制和优化中来。
17. 知识蒸馏
知识蒸馏(Knowledge Distillation)是将大模型的知识迁移到小模型的技术,目标是构建一个参数量更少但性能接近的“学生”模型。
知识蒸馏的过程通常涉及训练一个较小的学生模型,使其输出尽可能接近较大的教师模型。蒸馏的信号可以来自多个方面:教师模型的软概率分布(Temperature-scaled logits)、中间层表示、注意力矩阵等。
知识蒸馏使得在资源受限的环境中部署大模型成为可能,是实现模型轻量化的重要手段。典型的蒸馏模型如 DistilBERT 相比原始 BERT 减少了 60% 的参数量,同时保留了 97% 的性能。近年来,知识蒸馏也被用于构建更高效的推理模型和特定领域的专家模型。
三、推理与生成相关概念
推理是将训练好的模型应用于实际任务的过程,涉及到如何有效地利用模型的生成能力、如何控制输出的质量和多样性,以及如何优化推理效率等多个方面。
18. 自回归生成
自回归生成(Autoregressive Generation)是 LLM 最核心的文本生成方式。
在自回归模型中,生成过程是顺序进行的:模型每次预测下一个最可能的 token,然后将预测的 token 加入输入序列,再预测下一个 token,如此循环直到生成完整的输出。这种生成方式的优势在于模型能够自然地学习到语言的序列结构,生成的文本通常具有很好的连贯性。
然而,自回归生成的主要缺点是生成速度较慢,因为每个 token 的生成都需要一次完整的前向传播。近年来,投机解码(Speculative Decoding)等技术被提出用于加速自回归生成。
19. 推理加速
推理加速是指通过各种技术手段提高 LLM 推理速度的方法。
除了前面提到的自回归生成加速技术外,量化(Quantization)也是最重要的推理加速手段之一。量化通过将模型参数从高精度(如FP32)转换为低精度(如INT8、INT4)来减少计算和内存需求。
常见的量化方法包括动态量化、静态量化、后训练量化和量化感知训练等。除了量化,剪枝(Pruning)、知识蒸馏、计算图优化等方法也被广泛用于推理加速。
推理效率对于 LLM 的实际部署至关重要,特别是在需要实时响应的应用场景中。
20. 采样策略
采样策略(Sampling Strategy)决定了模型如何从概率分布中选择下一个 token,是控制生成多样性和质量的关键因素。
贪婪采样(Greedy Sampling)总是选择概率最高的 token,生成结果确定但可能缺乏多样性。
随机采样(Random Sampling)按照概率分布随机选择 token,能够产生更多样化的结果但可能不够流畅。Temperature 采样通过调整概率分布的平滑程度来控制随机性,较高的 temperature 增加随机性,较低的 temperature 使输出更确定性。
Top-k 采样限制模型只在概率最高的 k 个 token 中进行选择,Top-p(核采样)则动态选择累积概率达到阈值 p 的最小 token 集合。这些策略可以组合使用以达到理想的效果。
21. 提示工程
提示工程(Prompt Engineering)是指设计和优化输入提示词以获得期望输出的技术。
提示工程涵盖了多个方面:系统提示(System Prompt)定义模型的角色、行为规范和约束条件;用户提示(User Prompt)描述具体的任务需求;少样本示例(Few-shot Examples)通过示例帮助模型理解任务格式。良好的提示工程能够显著提升模型的性能,有时甚至可以弥补模型本身的不足。
提示工程已经成为一项重要的技能,需要对模型能力和任务需求有深入的理解。随着模型规模的增大,提示工程的重要性也在增加,因为更大的模型对提示的设计更加敏感。
22. 思维链提示
思维链提示(Chain of Thought Prompting,CoT)是一种引导模型进行逐步推理的提示技术。
CoT 的核心思想是在提示中包含推理步骤的示例,使模型学会展示中间推理过程然后得出最终答案。这种技术对于复杂推理任务特别有效,如数学问题、逻辑推理、多步计算等。CoT 的一个重要变体是零样本思维链(Zero-shot CoT),只需在提示中加入"Let's think step by step"等触发语就能激活模型的推理能力。
思维链提示的有效性揭示了大型语言模型具有潜在的推理能力,只要通过适当的提示技术加以激发。研究表明,思维链提示的效果随着模型规模的增大而增强,这可能与模型的“涌现能力”有关。
23. 上下文窗口
上下文窗口(Context Window)是指模型单次推理能够处理的最大 token 数量,它决定了模型能够“记住”多少信息。
上下文窗口的大小由模型的架构和训练数据决定,早期的 GPT-2 上下文窗口为 1024 tokens,而现代模型如 GPT-4 和 Claude 支持超过 100k tokens 的上下文窗口。上下文窗口是 LLM 的重要限制之一,因为它决定了模型能够处理的文档长度、对话历史长度等信息。
近年来,研究者在扩展上下文窗口方面取得了显著进展,包括改进的位置编码方法、上下文压缩技术、层次化记忆机制等。然而,更长的上下文窗口也带来了更高的计算成本和内存需求。
24. 推理提示调优
推理提示调优(Inference-time Prompt Tuning)是指在推理阶段通过优化提示来提升模型性能的技术,典型代表包括自我一致性(Self-Consistency)、思维树(Tree of Thoughts)等。
自我一致性通过采样多个不同的推理路径,然后选择最一致的答案作为最终输出,这种方法能够显著提升模型在推理任务上的准确性。
思维树则将推理过程组织为树状结构,允许模型进行探索性的多分支推理,然后在各分支中选择最优路径。
这些技术代表了“推理时计算”(Inference-time Computation)的新范式,即不改变模型参数,而是通过更智能的使用方式来提升性能。
四、评估与度量相关概念
评估是理解模型能力、发现问题和指导优化的关键环节。LLM 的评估涉及多个维度,包括语言理解、生成质量、推理能力、安全性等,需要建立全面的评测体系和指标。
25. 基准测试
基准测试(Benchmark)是用于评估 LLM 性能的标准测试集,涵盖了各种能力维度。
常见的基准测试包括:MMLU(Massive Multitask Language Understanding)测试模型在 57 个不同任务上的知识理解和推理能力;HumanEval 测试模型的代码生成能力;BBH(Big Bench Hard)包含一系列具有挑战性的推理任务;GSM8K 测试数学推理能力;TruthfulQA 测试模型在回答问题时的真实性。
基准测试为模型能力的量化评估提供了标准化的方法,使得不同模型之间可以进行公平比较。然而,基准测试也存在局限性,如数据泄露、过拟合等问题,需要谨慎解读评估结果。
26. 困惑度
困惑度(Perplexity)是衡量语言模型质量的经典指标,表示模型对下一个 token 预测的不确定性。困惑度的计算基于模型对整个序列的预测概率,数学上等于预测概率分布的交叉熵的指数。
困惑度越低,说明模型对文本的预测越准确,模型的性能越好。然而,困惑度作为评估指标存在一定的局限性,因为它主要衡量模型的建模能力,而不是实际的生成质量或任务表现。一个低困惑度的模型不一定能够在实际任务中表现良好,因此困惑度通常需要与其他指标结合使用。
27. BLEU分数
BLEU(Bilingual Evaluation Understudy)分数是机器翻译领域最常用的自动评估指标,通过计算生成文本与参考文本之间的 n-gram 重叠程度来评估生成质量。BLEU 的计算涉及精确度(Precision)和惩罚因子(Brevity Penalty)的组合,目标是奖励与参考文本高度相似的同时避免过短的输出。
尽管 BLEU 在机器翻译评估中广泛使用,但它也存在明显的局限性:它只考虑词级别的重叠,不考虑语义和语法正确性,对同义词和复述无能为力。因此,对于 LLM 的评估,BLEU 通常需要与其他更全面的指标结合使用。
28. ROUGE分数
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组用于评估自动摘要和文本生成任务指标集合。与 BLEU 侧重于精确度不同,ROUGE 更强调召回率,即生成文本中包含了多少参考文本中的内容。
常见的 ROUGE 变体包括:ROUGE-N 计算 n-gram 的召回率;ROUGE-L 计算最长公共子序列的召回率;ROUGE-S 计算 skip-bigram 的召回率。
ROUGE 在自动摘要任务中应用广泛,但它同样只关注表层的词汇重叠,无法真正评估生成内容的语义质量和信息完整性。
29. 人工评估
人工评估(Human Evaluation)是 LLM 评估中不可或缺的环节,通过人工判断来评估生成文本的质量。
人工评估可以覆盖自动指标难以衡量的维度,如流畅性、相关性、帮助性、创造性等。
常见的人工评估方法包括:成对比较(让评估者选择两个系统中更好的输出);评分量表(使用 Likert 量表对各个维度进行打分);绝对判断(直接评估单个输出的质量)。
人工评估的主要缺点是成本高、速度慢、主观性强,不同评估者之间可能存在显著分歧。
尽管如此,对于最终的系统评估来说,人工评估仍然是黄金标准。
30. 大模型作为评估器
大模型作为评估器(LLM-as-a-Judge)是近年来兴起的一种评估范式,利用强大的 LLM 来评估其他系统或自身的输出。这种方法的核心思想是让 LLM 根据预设的标准对生成内容进行评分或排序。
LLM-as-a-Judge 的优势在于成本低、速度快、可扩展性强,能够对大量样本进行评估。研究表明,某些情况下 LLM 作为评估者的判断与人类评估具有较高的相关性。
然而,这种方法也存在明显的偏差,如对特定格式的偏好、对长输出的偏好、自我偏好偏差等。在使用 LLM 作为评估器时需要谨慎设计评估协议并考虑潜在的偏差来源。
五、应用与部署相关概念
将 LLM 应用于实际场景需要考虑如何有效地利用模型能力、如何构建可靠的应用系统,以及如何在生产环境中高效部署。这些涉及工程实践和系统设计的多个方面。
31. 检索增强生成
检索增强生成(Retrieval-Augmented Generation,RAG)是当前最流行的 LLM 应用架构之一,它通过结合外部知识检索来增强模型的生成能力。RAG 的工作流程是:首先根据用户查询从知识库中检索相关文档;然后将检索到的文档作为上下文提供给 LLM;最后 LLM 基于检索到的信息生成回答。
RAG 有效地解决了 LLM 的几个关键问题:知识时效性(可以通过更新知识库来更新模型知识)、幻觉(回答基于真实文档)、领域知识(可以接入专业领域的知识库)。
RAG 系统通常包括向量检索、文档分块、混合检索、重排序等关键组件,是企业级 LLM 应用的主流方案。
32. 向量数据库
向量数据库(Vector Database)是专门用于存储和检索高维向量数据的数据库系统,是 RAG 系统的核心基础设施。
向量数据库的主要功能是将文本等数据转换为向量嵌入(Embedding),然后支持高效的相似度搜索。在 RAG 应用中,用户查询和知识库文档都被转换为向量表示,检索过程就是找到与查询向量最相似的文档向量。
常见的向量数据库包括 Milvus、Pinecone、Weaviate、Chroma 等。
向量数据库的关键技术包括:向量索引算法(如 HNSW、IVF)、距离度量(如余弦相似度、欧氏距离)、过滤查询等。选择合适的向量数据库对于 RAG 系统的性能和可扩展性至关重要。
33. Agent智能体
基于 LLM 的 Agent(智能体)是能够自主决策、规划任务和执行动作的人工智能系统。与简单的问答不同,Agent 能够根据目标分解任务、调用各种工具、与外部环境交互。
典型的 Agent 系统包含以下组件:规划模块负责任务分解和执行计划;记忆模块存储历史交互信息;工具模块提供调用外部能力(如搜索、API、计算等)的能力;执行模块负责具体动作的执行。
ReAct、Toolformer 等技术为 Agent 的构建提供了基础。
Agent 代表了 LLM 从被动工具向主动助手的重要演进,是构建复杂 AI 应用的关键技术。
34. 函数调用
函数调用(Function Calling)是 LLM 与外部系统交互的重要能力,它允许模型调用预定义的函数并获取返回结果。
函数调用的实现通常包括两个部分:首先是模型根据对话上下文判断需要调用哪个函数以及参数是什么;然后系统执行函数并将结果返回给模型。
函数调用使得 LLM 能够执行计算、查询数据库、调用 API 等操作,大大扩展了模型的能力边界。
主流的 LLM API(如 OpenAI、Anthropic)都提供了函数调用功能。设计良好的函数定义和调用机制是构建 Agent 系统的关键环节。
35. 模型量化
模型量化(Quantization)是降低模型精度以减少资源需求的技术,是 LLM 部署中最重要的优化手段之一。量化通过将模型参数从高精度浮点数(如 FP32)转换为低精度表示(如 INT8、INT4)来减少存储空间和计算需求。
量化方法主要分为两类:后训练量化(Post-Training Quantization,PTQ)在模型训练完成后进行量化;量化感知训练(Quantization-Aware Training,QAT)在训练过程中模拟量化的效果。
量化可以显著减少模型的内存占用和推理延迟,但可能会带来一定的精度损失。GPTQ、AWQ、GGML 等是常见的量化方法。对于在消费级硬件上部署 LLM,量化几乎是不可或缺的步骤。
36. 模型服务化
模型服务化(Model Serving)是指将 LLM 封装为可远程调用的服务,使应用能够通过网络请求使用模型能力。
模型服务化需要考虑多个方面:性能优化(批处理、连续批处理、投机解码等)、高可用性(负载均衡、故障转移)、扩展性(水平扩展、容器化部署)、安全性(认证、授权、输入输出审核)等。
常见的模型服务框架包括 vLLM、Text Generation Inference(TGI)、Ray Serve 等。模型服务化是构建生产级 LLM 应用的基础设施,需要综合考虑性能、成本、可靠性等多方面因素。
六、安全与对齐相关概念
确保 LLM 的安全性、可靠性和符合人类价值观是当前最重要研究方向之一。这涉及到从训练到部署的全流程安全措施和对齐技术。
37. 对齐
对齐(Alignment)是指确保 LLM 的行为符合人类意图和价值观的过程。
一个对齐良好的模型应该是有帮助的(Helpful)、诚实的(Honest)、无害的(Harmless)。对齐问题之所以重要,是因为预训练模型只是学习预测下一个 token,并没有内在的价值判断能力,可能产生有害、有偏见或不帮助的输出。
对齐技术主要包括:RLHF、Constitutional AI、RL from AI Feedback 等。对齐是 LLM 从“强大”走向“可信”的关键步骤,也是当前 AI 安全研究的核心议题。
38. 幻觉
幻觉(Hallucination)是指 LLM 生成看似合理但实际上不正确或无事实依据的内容。幻觉是 LLM 应用面临的主要挑战之一,它源于模型的训练目标和底层架构。
幻觉的常见类型包括:事实性幻觉(生成与已知事实矛盾的内容)、语义幻觉(生成与输入无关的内容)、编造内容(虚构人物、事件、数据等)。
缓解幻觉的方法包括:检索增强(RAG)、事实核查机制、置信度估计、推理过程可视化等。减少幻觉对于构建可靠的 LLM 应用至关重要。
39. 提示注入
提示注入(Prompt Injection)是一种安全攻击手法,通过在用户输入中嵌入恶意指令来操控 LLM 的行为。
典型的提示注入攻击包括:直接注入(直接在输入中包含控制指令)、间接注入(通过外部数据源注入恶意内容)、越狱(Jailbreak)尝试绕过安全限制。
提示注入可能导致 LLM 泄露敏感信息、执行恶意操作、绕过内容安全策略等。防御提示注入的方法包括:输入过滤、输出审核、指令分离(将系统指令和用户输入明确区分)、使用更安全的模型架构等。提示注入是 LLM 安全领域需要持续关注的问题。
40. 安全性评估
安全性评估(Safety Evaluation)是系统性地检测 LLM 潜在安全风险的过程,目标是发现模型在各个方面的安全问题。
安全性评估涵盖多个维度:有害内容(暴力、仇恨、违法内容等)、偏见歧视(性别、种族、宗教等偏见)、隐私泄露(是否泄露个人信息)、误导信息(错误或虚假信息)、能力滥用(可能被用于恶意目的)等。
安全性评估的方法包括:红队测试(Red Teaming,由攻击者模拟恶意使用)、自动基准测试、人工审核、对抗性测试等。
全面系统的安全性评估是 LLM 部署前的必要步骤,对于识别和缓解潜在风险至关重要。
七、概念总结表格
序号
概念
解释说明
1
Transformer架构
2017年提出的革命性神经网络架构,完全基于自注意力机制建模序列依赖关系
2
自注意力机制
允许模型在处理每个词时同时考虑序列中所有其他词的注意力计算方式
3
多头注意力
多个并行的注意力头,使模型能够同时建模多种不同类型的语义关系
4
位置编码
注入序列位置信息的技术,使模型能够感知token的顺序关系
5
前馈神经网络
Transformer中的非线性变换层,负责对每个位置的表示进行特征提取
6
残差连接与层归一化
保证深层Transformer训练稳定性的关键组件
7
编码器-解码器架构
Transformer的原始形态,适合序列到序列的转换任务
8
仅解码器架构
只有解码器的架构,GPT系列模型的典型设计,适合生成任务
9
混合专家模型
稀疏激活的模型架构,通过专家网络实现大规模参数量
10
旋转位置编码
具有良好外推能力的相对位置编码方法
11
预训练
在大规模无标注数据上训练模型学习通用语言知识的过程
12
有监督微调
使用标注数据在预训练模型上进行任务适配训练
13
人类反馈强化学习
利用人类反馈对齐模型价值观的关键技术
14
直接偏好优化
简化版的RLHF方法,直接利用偏好数据优化模型
15
指令微调
专门提升模型指令遵循能力的SFT技术
16
参数高效微调
减少微调参数量的技术,如LoRA、Prefix Tuning等
17
知识蒸馏
将大模型知识迁移到小模型的技术
18
自回归生成
LLM最核心的文本生成方式,按顺序预测下一个token
19
推理加速
提高LLM推理速度的技术,包括量化、剪枝等
20
采样策略
控制token选择的方法,决定生成的多样性和质量
21
提示工程
设计和优化输入提示词以获得期望输出的技术
22
思维链提示
引导模型逐步推理的提示技术,提升复杂任务表现
23
上下文窗口
模型单次推理能处理的最大token数量
24
推理提示调优
在推理阶段通过优化提示提升性能的技术
25
基准测试
用于评估LLM性能的标准测试集
26
困惑度
衡量语言模型预测不确定性的经典指标
27
BLEU分数
机器翻译领域的自动评估指标
28
ROUGE分数
自动摘要任务的评估指标集合
29
人工评估
通过人工判断评估生成质量的方法
30
大模型作为评估器
使用LLM评估其他系统输出的新范式
31
检索增强生成
结合外部知识检索增强LLM生成能力的架构
32
向量数据库
专门用于存储和检索高维向量的数据库系统
33
Agent智能体
能够自主决策、规划任务和执行动作的AI系统
34
函数调用
LLM调用预定义函数与外部系统交互的能力
35
模型量化
降低模型精度以减少资源需求的技术
36
模型服务化
将LLM封装为可远程调用的服务
37
对齐
确保LLM行为符合人类意图和价值观的过程
38
幻觉
LLM生成看似合理但实际不正确的内容
39
提示注入
通过恶意输入操控LLM行为的安全攻击手法
40
安全性评估
系统性检测LLM潜在安全风险的过程
八、概念关系图谱
(AI生成图片)
掌握以上 40 个重要概念,能够帮助读者建立起对大模型 LLM 全面而系统的理解。这些概念相互关联、共同构成了 LLM 的知识体系骨架。随着技术的快速发展,新的概念和方法仍在不断涌现,建议持续关注学术前沿和工程实践的最新进展。
