三巨头大模型内景论文，模型内部奥秘？

摘要：这一章我们通过三巨头 Google、OpenAI、Anthropic 三篇充满脑洞的论文，深入探讨模型内部状态的可访问性与可操控性。我们将从三个维度展开：模型是否有自我认知？如何引导这种认知？如何从数学和电路层面解释这种认知？

这一章我们不谈应用，而是通过三巨头 Google、OpenAI、Anthropic 三篇充满脑洞的论文，深入探讨模型内部状态的可访问性与可操控性。我们将从三个维度展开：模型是否有自我认知？如何引导这种认知？如何从数学和电路层面解释这种认知？ Google：In-Context Learning 本质上是隐式梯度更新 📄 Google:# Learning without training: The implicit dynamics of in-context learning ❓ 大语言模型在推理阶段，不更新权重的情况下，仅仅通过提示中的几个例子，就能学会新的模式。这是如何发生的？ 💡 ICL既微调，Attention层处理上下文的过程，等价于对MLP 层做了一次隐式的梯度下降更新。整个网络在推理时，临时变成了一个专门处理当前任务的“特化专家”。第一步：定义上下文块论文的核心创新点是提出了上下文块，这是对标准Transformer块（自注意力层 + MLP层）的一种抽象。上下文块由两个部分组成：上下文层（Contextual Layer）：记为 A 。这是一个可以处理上下文信息的层，例如自注意力层。它接受两种输入：单独输入x，例如用户query，输出A(x) 输入x和上下文C，例如系统指令中的few-shot+query，输出 A(C, x）。因为上下文层的输出空间相同,都是last token输出向量，因此我们可以使用 $ \Delta A(C) = A(C, x) - A(x) $来捕捉上下文对输出空间的影响神经网络（Neural Network）：记为M_W。这是一个标准的MLP层组合起来就是 \[T_W = M_W \circ A(C,x) \] 第二步：权重更新的推导这是最精彩的一步，论文证明了，上下文层在处理信息时，隐式地实现了对后续MLP层权重W的低秩更新。假设上下文C中包含信息Y（这里引入Y只是特殊到一般的证明策略），论文证明了引入Y等同于对MLP权重进行了一个秩1$\Delta W(Y)$权重更新 \[\begin{align} T_W(C, x) &= T_{W + \Delta W(Y)}(C \setminus Y, x)\\ 其中\Delta W(Y) &= \frac{ (W \Delta A(Y)) A(C \setminus Y, x)^T }{\| A(C \setminus Y, x) \|^2} \end{align} \] 笔者还是喜欢正向推导，所以咱正着推一遍 \[\begin{align} W \cdot A(C,x) & = W \cdot (A(C \setminus Y,x) + \Delta A(Y))\\ & = W \cdot A(C \setminus Y,x) + W \cdot \Delta A(Y)\\ &= W \cdot A(C \setminus Y,x) + \frac{W \cdot \Delta A(Y) \cdot A(C \setminus Y,x)^T}{\| A(C \setminus Y, x) \|^2} \cdot A(C \setminus Y,x)\\ & = (W+ \Delta W(Y)) \cdot A(C \setminus Y, x) \end{align} \] 第三步：和梯度下降的关联最后论文进一步将这种隐式更新与梯度下降联系起来。考虑上下文的每个token $ C = [c_1, c_2, \dots, c_n]$逐步处理的过程，其实可以定义一系列权重更新过程： \[W_i = W_0 + \Delta W_0(c_1, \dots, c_i) \] $\Delta W_0(c_1, \dots, c_i)$是累计更新，那么权重变化 $ W_{i+1} - W_i $ 可以表示为：$W_{i+1} - W_i = -h \Delta_i$，其中 $h= 1 / \| A(x) \|^2$是学习率 $\Delta_i = W_0 \left( A(c_1, \dots, c_i, x) - A(c_1, \dots, c_{i+1}, x) \right) A(x)^T$是梯度那整个上下文编码的过程，其实是在拟合一个和上下文变化直接关联的损失函数$L_i（W）=trace（\Delta_i^TW）$ 那Prompt Engineering本质上是在设计Loss Function，让模型在推理期“训练”自己。

三巨头大模型内景论文，模型内部奥秘？

相关推荐