LLM(大型语言模型)算法岗的八股题目通常包括以下几个方面:1. **基础知识** - 请简述LLM的基本概念和特点。 - 解释什么是自然语言处理(NLP)以及它在LLM中的应用。 - 描述一下机器学习的基本流程。2. **模型架构** - 请介绍Tran
摘要:目录1. Top-p 和 Top-k 采样2. LayerNorm 和 RMSNorm3. SFT Loss 计算(Shift Right)4. 手撕 Softmax、交叉熵(Cross Entropy)5. QKV、Self-Attent
目录1. Top-p 和 Top-k 采样2. LayerNorm 和 RMSNorm3. SFT Loss 计算(Shift Right)4. 手撕 Softmax、交叉熵(Cross Entropy)5. QKV、Self-Attention 与 Multi-Head Attention (MHA)6. RoPE (Rotary Positional Embedding)面试总结与建议
1. Top-p 和 Top-k 采样
概念讲解:
在自回归文本生成中,模型每一步会输出一个概率分布(logits 经过 softmax),我们需要从中采样下一个 token。直接使用整个词汇表采样(即 temperature 缩放后的随机采样)可能导致生成低概率 token,使结果不连贯。Top-k 采样 和 Top-p 采样 是两种常用的截断采样方法,用于限制候选 token 集合,提高生成质量。
Top-k 采样:
做法:只保留概率最高的 k 个词,把剩下的词概率强制设为 0,然后重新归一化(让剩下的概率和为 1),再从中采样。
作用:直接砍掉长尾的低概率词,防止生成生僻字或乱码。
缺点:k 是固定的。如果模型很自信(某个词概率 90%),k 太大也会采样到噪音;如果模型很犹豫(概率很平),k 太小会限制多样性。
Top-p (Nucleus) 采样:
做法:将词按概率从大到小排序,依次累加概率,直到累加和超过 p (比如 0.9)。保留这些词,剩下的截断,重新归一化,再采样。
作用:动态调整候选词数量。模型自信时候选词少,模型犹豫时候选词多。
现状:目前 LLM 推理中,Top-p 比 Top-k 更常用,或者两者结合。
两种方法可以结合使用(如先取 top-k 再取 top-p),但通常分别实现。
