如何优化网络商城网站以提升搜索排名?
摘要:网络商城网站怎样做关键词优化,网站建设 010,做那个网站大全,网页前端制作招聘许志永 一、说明 贝叶斯原理,站在概率角度上似乎容易解释,但站在函数立场上就不那么容易了&a
网络商城网站怎样做关键词优化,网站建设 010,做那个网站大全,网页前端制作招聘许志永 一、说明 贝叶斯原理#xff0c;站在概率角度上似乎容易解释#xff0c;但站在函数立场上就不那么容易了#xff1b;然而#xff0c;在高端数学模型中#xff0c;必须要在函数和集合立场上有一套完整的概念#xff0c;其迭代和运算才能有坚定的理论基础。 二、贝叶… 许志永 一、说明 贝叶斯原理站在概率角度上似乎容易解释但站在函数立场上就不那么容易了然而在高端数学模型中必须要在函数和集合立场上有一套完整的概念其迭代和运算才能有坚定的理论基础。 二、贝叶斯概念的难处 2.1 并不简单 贝叶斯定理看起来天真地简单。但是分母是在 z 上积分的分区函数就不简单了。一般来说它不能通过分析来解决。即使我们可以对已知分布族的先验和可能性进行建模后验 pz|x总体上仍然难以解决。 让我们用一个简单的例子来演示它的复杂性。我们使用多项式分布来选择 K 正态分布之一。然后我们使用选定的正态分布对 xi 进行采样。如图所示后部的复杂性已经无法控制。 从源代码修改
另一种方法是近似解。在 ML 中有两种主要的近似方法。它们是采样和变分推理。在本文中我们将讨论后者。
在变分推理中给定观测值 Xwe 为潜在变量 z 构建概率模型 q即 q ≈pz|X。 上面的边际 pX 可以计算为 在变分推理中我们避免计算边际 pX。这种分区功能通常很讨厌。相反我们选择一些易于处理的分布族q来近似p。 我们将 q 与样本数据拟合以了解分布参数 θ。当我们为 q 做出选择时我们确保它易于操作。例如它的期望和归一化因子可以直接从分布参数计算。由于这个选择我们可以用 q 代替 p 进行任何推断或分析。
2.2 概述 虽然这个概念听起来很简单但细节却并非如此。在本节中我们将详细介绍著名的主题建模算法称为潜在狄利克雷分配LDA的主要步骤。我们希望这能为您提供一个顶级概述然后再深入研究细节和证明。 以下是 LDA 的图形模型。 该模型包含变量 α、β、θ、z 和 w。不要担心变量的含义因为它在我们的上下文中并不重要。 w 是我们的观察结果。 θ 和 z 是我们想要发现的隐藏变量潜在因子。 α 和 β 在我们的讨论中是固定且已知的。图形模型中的箭头表示依赖性。例如w 仅取决于 z 和 β。因此p(w|α, β, θ, z) 可以简化为 p(w|z, β)。 与许多概率模型一样我们感兴趣的是在给定已知输入的情况下对联合分布 p(w, θ, z |α, β) 进行建模。我们应用链式法则来扩展联合概率使其仅由单个变量的分布组成。然后我们应用图中的依赖关系来简化每一项。我们得到 基于主题建模问题θ和w可以用狄利克雷分布建模z可以用多项式分布建模。我们的目标是用 q 近似所有隐藏变量 θ 和 z。 我们定义了一个目标来最小化 p 和 q 之间的差异。这可以通过最大化下面的ELBO证据下限来完成。 即使不是那么明显当 p 和 q 相同时ELBO 会最大化。然而联合概率qθ z仍然很难建模。我们将它分解并近似为 qθ z ≈ qθ qz。即使它可能不完美经验结果通常也是好的。 z 由多个变量 z₁、z₂、z₃、... 组成。并且可以分解为单个组件如 Qz₁Qz₂...因此q 的最终模型为 根据主题建模问题我们可以对具有狄利克雷分布的 θ 和具有多项分布的 zi 进行建模并使用 γ 和 φi 对相应的分布参数进行建模。 这是一个伟大的里程碑因为我们设法用单个隐藏变量的分布对复杂模型进行建模并为每个隐藏变量选择一个可处理的分布。剩下的问题是如何学习γ和φi。让我们回到ELBO目标 在许多 ML 问题中为了有效地对问题进行建模隐藏变量通常相互依赖。我们无法一步优化它们。相反我们一次优化一个变量同时保持其他变量固定。因此我们轮流旋转隐藏变量以交替步骤进行优化直到解决方案收敛。在 LDA 中z 和 θ 分别在下面的步骤 5 和 6 中进行优化。 源 剩下的主要问题是如何在修复其他参数的同时优化变分参数。在每次迭代中目标隐变量 zk 的最佳分布为 分子对除 zk 之外的所有隐藏变量进行积分。 听起来我们正在重新引入邪恶的双胞胎正常化因素。尽管如此这不会成为问题。我们选择 q 作为可处理的分布。它们的期望和归一化可以从分布参数分析中得出。 等式中的分子值得更多解释。对于正则期望 E[fx₁ x₂ x₃]我们评估所有变量的 f。 但是对于我们的分子我们省略了目标变量。 即 -k 是以下的缩写 但是我们不会在计算期望时执行积分。我们对 qi 的选择使我们能够简化 ELBO 最大化中的许多计算。让我们更详细地介绍一下。
在 LDA 中q 近似为 其中 θ 和 z 分别由 γ 和 φ 建模。我们的计算涉及
将 ELBO 扩展到单个变量计算预期值优化 ELBO 展开 ELBO 使用图形模型和链式规则我们将ELBO扩展为 计算预期值 我们不想用细节让您不知所措。因此我们仅演示如何仅计算第一个项的期望。首先θ 由参数为 α 的狄利克雷分布建模。 接下来我们将计算其期望值 w.r.t. q。 这里没有证明E[log θi] 可以直接从γ计算出来。 我们深思熟虑地选择 q通常使用基于问题陈述中隐藏变量属性的已知分布。数学家已经分析解决了这些期望表达式。我们甚至不担心归一化因素。 优化 ELBO 在我们扩展 ELBO 中所有剩余的项后我们可以将其区分为 w.r.t. γiγ 中的第 i 个参数和φ ni第 n个单词中的第 i个参数。 通过将导数设置为零我们找到了γi的最佳解 φni 的最佳解决方案将是 由于γ和φ ni之间存在依赖关系我们将以交替的步骤迭代优化参数。 Source
以下是概述。对于其余的文章我们将介绍变分推理、证明和详细示例中的一些主要设计决策。
三、KL-背离 为了找到q我们将问题变成优化问题。我们计算 q 的最佳参数以最小化目标 p* 的反向 KL 发散。 如前所述KL-发散不是对称的。q的最优解只有在q复杂到足以对p进行建模时KLpq和KLqp的最优解才会相同。这就提出了一个重要的问题即当KL-发散KLpq与p的期望更匹配时为什么使用反向KL-散度KLqp。例如当使用高斯分布对蓝色双峰分布进行建模时反向KL散度解将是图中的红色曲线b或c。两种解决方案仅涵盖一种模式。 源 但是a 中的 KL 散度解将覆盖大部分原始分布其均值将与 p* 的均值匹配。 矩包括均值和方差描述了分布。KL-散度解是力矩投影m-投影。它将 q 与 p 的矩匹配。如果我们匹配所有矩参数它们将完全相同。如果 q 使用指数分布族我们可以使用 KL-散度将 q 的矩与 p* 精确匹配。这里没有太多解释他们预期的足够统计数据将匹配。 即 pq反向KL散度是一种信息投影i-投影不一定产生正确的时刻。由此判断我们可以得出结论m投影是优越的。但是如果一个机制可以完全匹配p*那么这样的机制也需要完全理解p*这首先是困难的。所以听起来并不像它可能的那样好。 在变分推理中使用 i 投影代替。为了证明我们的选择是合理的让我们提出一些我们想要遵循的约束。首先我们要避免分区函数的计算计算困难。其次我们希望避免计算pz因为我们需要分区函数来计算它。因此让我们为 p 定义一个新术语即非规范化分布它将分区函数分开。 让我们将新定义代入反向KL背离。 Z 不会改变 w.r.t. q。当我们最小化反向KL发散时可以忽略它。 这是个好消息。在图形模型中非规范化的 p 是使用因子明确定义的。它们易于计算并且 R.H.S. 中的目标不需要任何规范化。使用反向KL散度是一个很好的折衷方案即使在某些情况下它可能并不完美。对于 q 与 p* 相比过于简单结果可能会造成伤害。然而变异推断通常显示出良好的经验结果。接下来让我们看看如何优化反向KL发散。
四、证据下限 让我们在下面介绍凸函数 f 和称为证据下界 ELBO 的项的詹森不等式 该图源自维基百科 ELBO 实际上是在最后一步中对凹函数应用詹森不等式后的证据的下限log px。 从源代码修改 ELBO与KL背离有关 从源代码修改 现在让 Z 成为边际 px。不要将 Z 与隐藏变量 z 混淆。不幸的是我们需要用大写字母重载符号因为 Z 在其他文献中经常使用。 Z 不会改变我们对 q 的建模方式。所以从优化 q 的角度来看log Z 是一个常数。 因此最小化KL发散度将与最大化ELBO相同。直观地说给定任何分布 qELBO 始终是 log Z 的下限。但是当 q 等于 p* 时差距减小到零。因此最大化ELBO将KL发散度降低到零。 通过最大化证据下限ELBO我们最小化了两个数据分布的差异。 让我们将 ELBO 概括为 其中 Z 现在是一般归一化因子。 同样如上所示最大化ELBO与最小化KL散度相同因为Z不会因我们对q进行建模的方式而变化。 这比KL背离带来了一个主要优势。ELBO 适用于归一化和非归一化分布无需计算常规 KL 散度定义所需的 Z。
ELBO 和图形模型可选
让我们演示如何使用图形模型在 ELBO 中计算非归一化分布。联合概率分布可以通过马尔可夫随机场建模为 我们将ELBO中的非规范化p替换为上面φ因子。 因此最小化KL发散等效于最小化吉布斯自由能。我们称之为自由能因为它是我们可以通过改变配置来操纵的能量的一部分。如果我们使用能量模型扩展模型则可以进一步扩展此模型。 五、平均场变分推理
信用证明和方程起源于这里。 不要太快开心。我们错过了变分推理中重要而困难的一步。q的选择是什么当 q 包含多个变量时即 qz qz₁ z₂ z₃ ...这可能非常困难。为了进一步降低复杂性平均场变分推理做出了一个大胆的假设即分布可以分解为分布每个分布仅涉及一个隐藏变量。 然后我们根据问题使用可处理的分布对每个分布进行建模。我们选择的分布将易于分析。例如如果 z₁ 是多项式我们使用多项式分布对其进行建模。如前所述许多隐藏变量相互依赖。因此我们将使用坐标下降来优化它。我们将隐藏变量分组为每个包含自变量的组。我们交替旋转和优化每组变量直到解决方案收敛。
所以最后一个难题是如何在每个迭代步骤中优化qizi。我们将首先介绍几个概念。当 x 不依赖于 z 时概率链式规则可以写成如下 其次由于我们将qz建模为独立分量qizi我们可以将熵建模为单个熵的总和。 有了这些信息我们扩展了ELBO 到 zj 在 z 中的排序是非常随意的。在下面的等式中我们使 zk 成为最后一个元素。并将与 z 无关的所有内容分组到一个常量中。因此等式变为 我们进一步删除与zk无关的项然后以积分形式表示。 我们取导数并将其设置为零以找到优化的分布 qzk。 最佳解决方案是 所有不断吸收并转化为Z。我们可以用贝叶定理扩展分子。同样相应的分母将与 zk 无关因此被吸收为归一化因子。 这与我们在概述部分得到的等式相同。 还有其他方法可以找到优化的 q。让我们把所有内容都放在MRF的上下文中。如前所述我们的目标是 让我们用 qx 将其扩展为 qx₁ qx₂ qx₃ ... 这个方程可以用类似于MAP推理的线性代数来解决。但是我们不会在这里详细说明解决方案。
六、回顾 我们知道分布 p 的方程。但是分析或操纵它是令人讨厌的。 因此根据观察结果我们将为每个单独的模型参数使用可处理的 qi 对 p 进行建模。例如 为了最小化 p 和 q 之间的差异我们最大化下面的 ELBO。 在每个迭代步骤中相应模型参数 zj 的最佳解为 由于每个q都被选择为易于处理的因此可以通过分析方式找到期望值或归一化因子如果需要并且非常简单。
七、示例
图片来源这个例子和一些方程都来自这里。 让我们用一个例子来演示变化推断。考虑下面的分布 px 其中μ平均值和τ精度分别由高斯分布和伽马分布建模。因此让我们用 qμ τ 近似 px μ τ。通过方差推断我们可以从数据中学习这两个参数。每次迭代中 μ 和 τ 的最优值将满足 因此让我们首先用链式规则扩展 px μ τ然后从问题定义中扩展 p 的定义来评估它。 我们的下一个任务是使用下面的平均场变分推理通过 q 近似 p。 现在应用平均场变化推断我们得到 对数 q 是二次的。所以q是高斯分布的。 我们的下一个任务是将上面的方程与高斯定义进行匹配以找到参数 μ 和 τ τ ⁻¹ σ²。 因此μ 和 τ 是 如前所述计算归一化 Z 通常很困难但对于这些众所周知的分布来说并非如此。如果需要可以通过分布参数计算归一化因子。我们需要专注于查找这些参数。 我们在计算日志 qτ 时重复相同的过程。 τ 是伽马分布因为上面的分布仅依赖于 τ 和 对数 τ。 伽马分布的相应参数 a 和 b 为 现在我们有两个可处理的分布我们希望找到它们的参数μ和τ。 同样让我们将一些术语重写为期望表单。 如前所述数学已经通过分析解决了这些期望项。我们甚至懒得计算任何归一化因子。 μ和 a 可以立即解决。但是 τ 依赖于 bb 依赖于 τ。 因此我们将交替步骤迭代地解决它们。
将 τn 初始化为某个任意值。用上面的等式求解 bn。用上面的方程求解 τn。重复最后两个步骤直到值收敛。
八、抽样与变分推理 抽样方法存在一个主要缺点。我们不知道目前的采样解决方案与实际情况有多远。我们希望如果我们进行足够的采样解决方案是接近的但没有定量测量。为了测量这样的距离我们需要一个目标函数。由于变分推理被表述为优化问题因此我们确实对进展有一定的指示。但是变分推理近似于解而不是找到确切的解。事实上我们的解决方案不太可能是准确的。
