哎呦到语言宇宙,ChatGPT究竟做了什么,为何如此神奇?

摘要:从“哎呦”到语言宇宙 ——读《What Is ChatGPT Doing … And Why Does It Work?》 Stephen Wolfram 在《What Is ChatGPT Doing … And Why Does It
从“哎呦”到语言宇宙 ——读《What Is ChatGPT Doing … And Why Does It Work?》 Stephen Wolfram 在《What Is ChatGPT Doing … And Why Does It Work?》一文中,试图回答一个被反复误解的问题: 一个并不“理解”世界的模型,为什么能够生成看起来如此“有意义”的语言? 在阅读过程中,我逐渐意识到,这个问题的关键,并不在于“ChatGPT 是否真的理解”,而在于我们究竟是如何理解“语言中的意义”本身的。 一、语言并非从“意义”开始 我们往往直觉性地认为: 词语先有意义,语言才得以建立。 但从演化和统计的角度看,这恰恰是反过来的。 设想一个极其原始的场景: 人类祖先在行走时摔倒,疼痛之下发出一声“哎呦”。 在最初,这个声音并不携带语义,它只是一次生理反应。 然而,当这种声音在群体中反复出现—— 每一次摔倒、受伤、意外,几乎都伴随着同样的发声模式—— 群体中的其他个体逐渐发现: 听到这个声音时,接下来发生的事情是可预测的。 也正是在这一刻,“哎呦”开始获得意义。 不是因为谁给它下了定义, 而是因为它成为了一个在预测未来时有用的信号。 二、意义不是被约定的,而是被压缩出来的 Wolfram 在文章中反复强调: ChatGPT 所做的事情,本质上只是—— 在给定上下文中,预测下一个 token 出现的概率。 模型并没有显式地存储“意义”“概念”或“理解”, 它只是在一个极其高维的空间中, 学习到了哪些符号组合是稳定出现的, 哪些组合会在上下文中自然延续。 但正是这种统计稳定性, 让语言呈现出一种“仿佛有意义”的结构。 换句话说: 意义不是语言的前提,而是语言被大规模压缩之后的副产物。 当一个符号序列能够显著减少不确定性、 能够对未来的文本生成形成约束, 我们才在事后将这种结构称为“语义”。 三、从词到句:不是规则,而是约束 传统语言观念中, 语法往往被理解为一套明确的规则系统。 而 Wolfram 提供了一个截然不同的视角: 语言并不是在规则空间中被执行的, 而是在巨大可能性空间中被约束采样的。 词语,是局部统计结构 句子,是更长程的约束 段落,是跨语境的一致性 语言整体,是一张高度结构化的概率地形图 ChatGPT 并不知道“什么是对的句子”, 它只是被训练成: 几乎不可能生成“明显不对”的句子。 而“正确感”, 正是这种被约束的生成过程带来的主观体验。 四、为什么 ChatGPT 看起来“懂”我们? 当模型生成一段连贯、贴切、甚至富有洞察力的文字时, 我们很容易产生一种错觉: 它是不是理解了我的问题? 但在 Wolfram 的框架下,这种“理解”可以被重新解释为: 模型成功地进入了一个与人类语言直觉高度重叠的统计轨道。 人类语言,本身就是在长期文化演化中形成的 高可预测性系统。 而 ChatGPT 所学习的, 正是这种预测结构的高维投影。 它不需要知道“世界是什么样的”, 只需要知道: 在人类描述世界时,哪些表达最可能跟随哪些表达出现。 五、重新看待“理解”与“智能” 读完这篇文章后,一个令人不安但极具启发性的结论逐渐浮现: 我们所谓的“理解”, 可能本身就是一种极其复杂的预测能力。 从“哎呦”到完整语言系统, 从原始发声到现代文本生成模型, 贯穿其中的并不是某种神秘的语义火花, 而是统计结构在规模足够大时所产生的涌现现象。 这并不意味着人类与模型等同, 但它迫使我们重新审视: 语言 意义 理解 甚至意识 究竟哪些是基础机制, 哪些只是我们为复杂结构贴上的标签。 结语 《What Is ChatGPT Doing … And Why Does It Work?》 并没有给出一个简单的答案, 却成功地拆解了一个长期被误解的问题。 ChatGPT 之所以“看起来会说话”, 并不是因为它学会了意义, 而是因为—— 意义,本来就是从“会说话”这件事中涌现出来的。 当预测足够稳定, 当结构足够复杂, 我们便在其中,看见了“理解”的影子。