如何通过Transformer Explainer深入理解大语言模型的工作原理?
摘要:Transformer Explainer 使用指南:在交互中理解大语言模型 写在前面 你可能听说过 ChatGPT、Claude、Gemini 这些 AI 助手,但你知道它们背后的核心技术是什么吗?答案是 Transformer——一种
Transformer Explainer 使用指南:在交互中理解大语言模型
写在前面
你可能听说过 ChatGPT、Claude、Gemini 这些 AI 助手,但你知道它们背后的核心技术是什么吗?答案是 Transformer——一种 2017 年诞生的神经网络架构,彻底改变了人工智能的发展方向。
今天介绍的 Transformer Explainer 是佐治亚理工学院开发的一个交互式可视化工具,它在浏览器中运行一个真实的 GPT-2 模型,让你能够亲眼看到 Transformer 是如何一步步处理文本、预测下一个词的。
网址:https://poloclub.github.io/transformer-explainer/
建议:使用电脑访问(需要 1300px 以上屏幕宽度),准备好 30 分钟的学习时间。
第一课:认识界面
打开网站后,你会看到三个主要区域:
1. 顶部输入区
Examples 下拉菜单:预设的示例文本
输入框:默认显示 "Data visualization empowers users to"
Generate 按钮:点击生成下一个词
Temperature 滑块:控制生成的"创造性"(0-2)
Sampling 选项:Top-k 或 Top-p 采样方式
2. 中间可视化区
这是核心区域,展示了 Transformer 的完整架构:
Embedding 层(左侧)
Transformer Block(中间,共 12 层)
Output Probabilities(右侧)
3. 底部文章区
详细的技术解释,可以边操作边阅读。
第二课:理解"下一个词预测"
核心概念:Transformer 的本质就是一个"猜词游戏"——给定一段文字,预测最可能出现的下一个词。
动手实验 1:观察预测过程
保持默认输入 "Data visualization empowers users to"
点击 Generate 按钮
观察右侧的 Output Probabilities 区域
你会看到一个概率分布图,显示词汇表中每个词成为"下一个词"的概率。概率最高的词会被选中并添加到输入末尾。
思考:为什么模型会选择这个词?因为它在训练数据中学到了"Data visualization empowers users to"后面最常出现的词是什么。
第三课:Embedding——把文字变成数字
计算机不认识文字,只认识数字。Embedding 就是把文字转换成数字向量的过程。
动手实验 2:观察分词过程
点击左侧的 Embedding 区域展开详情
观察输入文本是如何被切分的
你会发现:
"Data" → 一个 token
"visualization" → 一个 token
"empowers" → 被切成两个 token("emp" + "owers")
为什么要切分? GPT-2 的词汇表有 50,257 个 token。不是所有单词都在词汇表中,所以需要把生僻词切成更小的片段。
Embedding 的四个步骤
网站清晰地展示了这四步:
步骤
作用
GPT-2 参数
1. Tokenization
把文本切成 token
词汇表 50,257 个
2. Token Embedding
每个 token 变成向量
768 维向量
3. Positional Encoding
加入位置信息
让模型知道词的顺序
4. Final Embedding
相加得到最终表示
768 维向量
关键理解:每个词最终变成一个 768 维的向量。意思相近的词,向量也会相近。
第四课:Attention——让词与词"对话"
这是 Transformer 最核心的创新。Attention 机制让每个词都能"看到"其他词,从而理解上下文。
动手实验 3:探索注意力权重
点击中间的 Transformer Block 展开
找到 Multi-Head Self-Attention 区域
把鼠标悬停在不同的 token 上
你会看到一个热力图,显示当前词对其他词的"关注程度"。颜色越深,关注度越高。
