概率论沉思录:初等假设检验,其形式可以是:概率论中,初等假设检验的原理和步骤究竟有何深意?

摘要:我们在上一篇博客中介绍了传统的抽样理论。其中,我们导出了几种经典的抽样分布,也即给定关于所观察现象的假设H,数据D的概率分布p(D | H)。在上一篇博客中提到的伯努利坛子模型中,假设H即坛子的内容,数据D即重复抽球所生成的红球和白球序列。
.center { width: auto; display: table; margin-left: auto; margin-right: auto } 导言 我认为思想是运动的,而论证是驱动思想到某个方向的动力。 ——约翰·克雷格(John Craig, 1699) 我们在上一篇博客《概率论沉思录:初等抽样论》中介绍了传统的抽样理论。其中,我们导出了几种经典的抽样分布,也即给定关于所观察现象的假设\(H\),数据\(D\)的概率分布\(p(D\mid H)\)。在上一篇博客中提到的伯努利坛子模型中,假设\(H\)即坛子的内容,数据\(D\)即重复抽球所生成的红球和白球序列。但正如我们我们在上一篇博客的末尾所述,几乎所有实际的科学推断问题都处在相反的使用场景:我们已知数据\(D\),希望确定假设\(H\)。更一般地说,已知数据\(D\),如何求概率分布\(p(H_1\mid D), p(H_2\mid D), \cdots\),以指出给定假设\(\{H_1, H_2, \cdots\}\)中哪一个成立? 例如,我们的假设可能是对生成数据的物理机制的各种推断。但是从根本上讲,物理因果关系不是问题的必要组成部分,重要的只是假设和数据之间有某种逻辑关系。我们将这类问题称为假设检验(hypothesis testing)。 注 本书[1][2]采用贝叶斯派的视角,参数估计的过程实际上就是在进行假设检验了。因此,接下来讲的假设检验将与频率派的假设检验不太一样。事实上,贝叶斯派的假设检验不需要概率之外的特定工具(ad hoc devices),而频率派需要。 1 科学推断的基本原理 首先,我们引入先验概率的概念。除了与当前问题有关的新信息或数据\(D\)之外,我们用\(X\)来表示机器人几乎总是会拥有的其它信息。这至少包括它从离开工厂到收到当前问题为止的所有过去经验。对于机器人来说,所有概率至少要以\(X\)为条件。我们称仅以\(X\)为条件的概率\(P(A\mid X)\)为先验概率(prior probability)。需要注意的是,“先验”一词并不一定意味着时间上更早,这种区别纯粹是逻辑上的。根据定义,除了当前问题的直接数据\(D\)之外的任何其它信息都是“先验信息”。 注 还需要指出的是,伊曼努尔·康德(Immanuel Kant)引入a-priori[3]一词来表示可以独立于经验而知道真假的命题,而我们这里使用的“先验信息”不表示这种意思。\(X\)只简单地表示机器人拥有的我们所称“数据”之外的其它信息。 引入先验概率后,再加上我们在博客《概率论沉思录:定量规则》中提到的乘法规则,我们就可以着手解决假设检验问题了。现做如下命题定义: \(X\):先验信息。 \(H\):待检验的假设。 \(D\):数据。 根据乘法规则,我们有: \[P(DH\mid X) = P(D\mid HX)P(H\mid X) = P(H\mid DX)P(D\mid X) \] 在上一篇博客《概率论沉思录:初等抽样论》中,我们并不需要特别注意先验信息\(X\),因为所有概率都以\(H\)为条件,所以我们可以隐含地假设,定义问题的一般先验信息已经包含在\(H\)中。但是现在,所求的这些概率不再至少以\(H\)为条件,而是至少以\(X\)为条件,因此需要为它们使用不同的符号。 考虑上式的最后一个等式,进行移项后可以将\(P(H\mid DX)\)表示为\(P(H\mid X)\)乘上一个对\(H\)先验概率的调整因子: \[\underbrace{P(H\mid DX)}_{H\text{的后验概率}} = \underbrace{P(H\mid X)}_{H\text{的先验概率}}\boxed{\frac{P(D\mid HX)}{P(D\mid X)}}_{调整因子} \tag{1} \] 关于上述等式的各项,我们做以下的名词约定: \(P(H\mid DX)\):称为后验概率(posterior probability)。同样需要注意的是,这仅意味着“在逻辑上处在特定推理链的后面”,而不一定“时间上更晚”。一个人的先验概率可能是另一个人的后验概率。实际上只有一种概率,我们使用不同的名称仅指组织计算的特定方式。 \(P(D\mid HX)\):称为似然(likelihood),记作\(L(H)\)。可以看出\(P(D\mid HX)\)是我们在上一篇博客《概率论沉思录:初等抽样论》中介绍的抽样分布,它在固定\(H\)时依赖于\(D\)。
阅读全文