ChatGPT回答我三秒钟内,背后发生了哪些复杂计算与处理?

摘要:这是 「AI是怎么回事」 系列的第 8 篇。我一直很好奇 AI 到底是怎么工作的,于是花了很长时间去拆这个东西——手机为什么换了发型还能认出你,ChatGPT 回答你的那三秒钟里究竟在算什么,AI 为什么能通过律师考试却会一本正经地撒谎。这
这是 「AI是怎么回事」 系列的第 8 篇。我一直很好奇 AI 到底是怎么工作的,于是花了很长时间去拆这个东西——手机为什么换了发型还能认出你,ChatGPT 回答你的那三秒钟里究竟在算什么,AI 为什么能通过律师考试却会一本正经地撒谎。这个系列就是我的探索笔记,发现了很多有意思的东西,想分享给你。觉得不错的话,欢迎分享+关注。 如果你从第 1 篇读到这里,恭喜——你现在对 AI 的理解,已经超过了绝大多数人。 不是因为你知道了什么"内幕",而是因为你真正理解了那些齿轮是怎么转的。 这一篇是第一章的收尾。我不会引入任何新概念——前面 7 篇已经把所有零件都摆在桌上了。今天要做的事只有一件:把这些零件组装起来,让你看到一台完整的机器是怎么运转的。 我们来回答一个具体的问题:当你在 ChatGPT 的对话框里打下"什么是量子力学?",然后按下回车,到你看到屏幕上开始逐字蹦出回答——这短短三秒钟里,到底发生了什么? 三秒钟的全景 先给你看完整的路线图,然后我们一站一站地走。 你打下一句话:"什么是量子力学?" ↓ [第一站:Token 化] "什么" "是" "量子" "力学" "?" ↓ [第二站:词向量] 每个 Token 变成一串数字(比如 768 个数字) ↓ [第三站:Transformer] 注意力机制在这些数字之间寻找关系 ↓ [第四站:神经网络] 数百层的"乘法+加法"运算 ↓ [第五站:预测] 算出下一个最可能的词:"量子力学是..." ↓ [第六站:逐词生成] 一个词接一个词,组成完整回答 ↓ 你看到了 ChatGPT 的回答(大约 3 秒钟) 这张图可能看起来很简洁,但每一站背后,都是我们花了整整一篇文章才拆清楚的东西。 现在,让我带你一站一站地走一遍,同时串起前面 7 篇的全部知识。 第一站:你的话变成了碎片 你在输入框里打了"什么是量子力学?"这 7 个字。 但 ChatGPT 不认识中文。准确地说,它不认识任何人类语言——它只认识数字。 所以第一步,是把你的话拆成 AI 能处理的最小单位。这些单位叫做 Token。 如果你还记得第 2 篇的内容:Token 不完全等于"词"。它可能是一个字、一个词、甚至是一个词的一部分。怎么拆,取决于 AI 使用的"词表"——就像一本字典,字典里有的词就是一个 Token,没有的就要拆成更小的碎片。 "什么是量子力学?"可能会被拆成这样: "什么" → Token #1 "是" → Token #2 "量子" → Token #3 "力学" → Token #4 "?" → Token #5 5 个 Token。就像把一个句子打碎成 5 块积木。 这一步纯粹是机械性的——查表、拆分,没有任何"理解"在里面。 第二站:碎片变成数字 现在 AI 手里有 5 个 Token。但 Token 只是一个"编号"——比如"量子"可能对应编号第 38721 号。一个编号本身没有任何含义。 这就是第 2 篇花了很大篇幅解释的事情:每个 Token 会被转换成一串数字,叫做词向量。 "量子"这个 Token,会被翻译成一串 768 个数字(也可能是更多——GPT-3 用的是 12288 维的向量)。类似这样: "量子" → [0.23, -0.87,0.45,1.12, -0.34,0.67, ..., -0.91] (768 个或更多数字) 768 个数字,组成了一个高维空间中的一个"点"。 这些数字不是随便填的。还记得第 2 篇里那个让人惊叹的例子吗? "国王" - "男人" + "女人" ≈ "王后" 能做到这件事,是因为这些词向量在训练过程中被精心调整过——意思相近的词,在这个 768 维空间里距离就近;意思不同的词,距离就远。"量子"和"物理"的距离,比"量子"和"炒菜"的距离近得多。 语义——人类觉得最"虚"的东西——在 AI 这里变成了可以测量的数字距离。 这一步之后,你的 5 个 Token 就变成了 5 组数字。或者说,768 维空间里的 5 个点。 第三站:注意力——找到词和词之间的关系 现在 AI 手里有 5 组数字。但这 5 组数字各自独立——"量子"不知道旁边站着"力学","什么"不知道后面跟着"是"。 一个句子的意思不只取决于里面有哪些词,更取决于词和词之间的关系。"我打了他"和"他打了我"用的是完全一样的词,但意思完全相反。 这就是第 6 篇讲的 Transformer 要解决的问题。 Transformer 的核心发明叫做注意力机制。
阅读全文