三巨头大模型内景论文,模型内部奥秘?
摘要:这一章我们通过三巨头 Google、OpenAI、Anthropic 三篇充满脑洞的论文,深入探讨模型内部状态的可访问性与可操控性。我们将从三个维度展开:模型是否有自我认知?如何引导这种认知?如何从数学和电路层面解释这种认知?
这一章我们不谈应用,而是通过三巨头 Google、OpenAI、Anthropic 三篇充满脑洞的论文,深入探讨模型内部状态的可访问性与可操控性。我们将从三个维度展开:
模型是否有自我认知?
如何引导这种认知?
如何从数学和电路层面解释这种认知?
Google:In-Context Learning 本质上是隐式梯度更新
📄 Google:# Learning without training: The implicit dynamics of in-context learning
❓ 大语言模型在推理阶段,不更新权重的情况下,仅仅通过提示中的几个例子,就能学会新的模式。这是如何发生的?
💡 ICL既微调,Attention层处理上下文的过程,等价于对MLP 层做了一次隐式的梯度下降更新。 整个网络在推理时,临时变成了一个专门处理当前任务的“特化专家”。
第一步:定义上下文块
论文的核心创新点是提出了上下文块,这是对标准Transformer块(自注意力层 + MLP层)的一种抽象。上下文块由两个部分组成:
上下文层(Contextual Layer):记为 A 。这是一个可以处理上下文信息的层,例如自注意力层。它接受两种输入:
单独输入x,例如用户query,输出A(x)
输入x和上下文C,例如系统指令中的few-shot+query,输出 A(C, x)。
因为上下文层的输出空间相同,都是last token输出向量,因此我们可以使用 $ \Delta A(C) = A(C, x) - A(x) $来捕捉上下文对输出空间的影响
神经网络(Neural Network):记为M_W。这是一个标准的MLP层
组合起来就是
\[T_W = M_W \circ A(C,x)
\]
第二步:权重更新的推导
这是最精彩的一步,论文证明了,上下文层在处理信息时,隐式地实现了对后续MLP层权重W的低秩更新。
假设上下文C中包含信息Y(这里引入Y只是特殊到一般的证明策略),论文证明了引入Y等同于对MLP权重进行了一个秩1\(\Delta W(Y)\)权重更新
\[\begin{align}
T_W(C, x) &= T_{W + \Delta W(Y)}(C \setminus Y, x)\\
其中\Delta W(Y) &= \frac{ (W \Delta A(Y)) A(C \setminus Y, x)^T }{\| A(C \setminus Y, x) \|^2}
\end{align}
\]
笔者还是喜欢正向推导,所以咱正着推一遍
\[\begin{align}
W \cdot A(C,x) & = W \cdot (A(C \setminus Y,x) + \Delta A(Y))\\
& = W \cdot A(C \setminus Y,x) + W \cdot \Delta A(Y)\\
&= W \cdot A(C \setminus Y,x) + \frac{W \cdot \Delta A(Y) \cdot A(C \setminus Y,x)^T}{\| A(C \setminus Y, x) \|^2} \cdot A(C \setminus Y,x)\\
& = (W+ \Delta W(Y)) \cdot A(C \setminus Y, x)
\end{align}
\]
第三步:和梯度下降的关联
最后论文进一步将这种隐式更新与梯度下降联系起来。考虑上下文的每个token $ C = [c_1, c_2, \dots, c_n]$逐步处理的过程,其实可以定义一系列权重更新过程:
\[W_i = W_0 + \Delta W_0(c_1, \dots, c_i)
\]
\(\Delta W_0(c_1, \dots, c_i)\)是累计更新,那么权重变化 $ W_{i+1} - W_i $ 可以表示为:\(W_{i+1} - W_i = -h \Delta_i\),其中
\(h= 1 / \| A(x) \|^2\)是学习率
\(\Delta_i = W_0 \left( A(c_1, \dots, c_i, x) - A(c_1, \dots, c_{i+1}, x) \right) A(x)^T\)是梯度
那整个上下文编码的过程,其实是在拟合一个和上下文变化直接关联的损失函数\(L_i(W)=trace(\Delta_i^TW)\)
那Prompt Engineering本质上是在设计Loss Function,让模型在推理期“训练”自己。
