概率论沉思录:初等抽样论,能否涵盖所有的抽样奥秘?
摘要:我们先考察无放回抽样(sampling without replacement) 实验,也即从有N个球的坛子里无放回地抽n个球,我们会发现实验结果服从超几何分布广义超几何分布。接着,我们会讨论前向推断和后向推断两类问题。然后,我们会研究无
.center { width: auto; display: table; margin-left: auto; margin-right: auto }
导言
我们在上一篇博客《概率论沉思录:定量规则》中介绍了合情推理[1][2]的定量规则,即:
乘法规则:\(p(AB\mid C) = p(A\mid C)p(B\mid AC)=p(B\mid C)p(A\mid BC)\);
加法规则:\(p(A\mid B) + p(\bar{A}\mid B) = 1\);
无差别原则:\(p(A_i\mid B) = \frac{1}{N}, \quad 1 \leqslant i \leqslant N\)
(其中\(\{A_1, \cdots, A_N\}\)互斥完备,且背景信息\(B\)不倾向于其中任何一个)。
根据乘法规则和加法规则,可以导出广义加法规则:\(p(A + B \mid C) = p(A\mid C) + p(B\mid C) - p(AB\mid C)\);
根据加法规则和无差别原则,我们又得到了伯努利坛子规则:如果有\(N\)个除标号外各方面都相同的球,命题\(A\)被定义为在任意的\(M\)个球的子集上为真(\(0\leqslant M \leqslant N\)),在其补集上为假,我们有:
\[p(A\mid B) = \frac{M}{N}
\]
事实上,只需要以上规则就可以导出概率论中的许多结论。接下来我们来看看我们的推理机器人是如何依据这些规则完成推理,并得到许多经典的结论的。
首先,我们做一个术语约定,我们称从坛子里抽一次球为一次试验(trial),\(n\)次试验构成一次实验(experiment)。我们接下来会先考察无放回抽样(sampling without replacement) 实验,也即从有\(N\)个球的坛子里无放回地抽\(n\)个球,我们会发现实验结果服从超几何分布/广义超几何分布。接着,我们会讨论前向推断和后向推断两类问题。然后,我们会研究无放回抽样的极限形式,这将导出二项分布/多项分布。关于多项分布,我们还会进一步讨论统计力学中的麦克斯韦-玻尔兹曼统计。
最后,我们会考察更复杂的有放回抽样(sampling with replacement) 实验,也即从有\(N\)个球的坛子里无放回地抽\(n\)个球。注意,与许多人认为的相反,我们认为无放回抽样更复杂,因为我们需要考虑大量的额外背景信息并进行分析。之所其二项分布的数学形式更简单,是由于我们做出了随机化的额外假设导致的,我们所得到的只是个近似的结果。最后,我们会对有放回抽样的近似结果做进一步的相关性校正,这将得到一个马尔可夫链模型。
本文的思维导图如下所示:
1 无放回抽样
1.1 超几何分布与广义超几何分布
首先,我们通过以下命题的定义来进一步明确无放回抽样实验的定义:
\(B\):一个坛子里有\(N\)个球,这些球除了带有不同的标号(\(1, 2, \cdots, N\))和分为两种颜色以外,其它各个方面都相同,其中\(M\)个为红色,剩余\(N-M\)个为白色,\(0\leqslant M \leqslant N\)。我们从坛子中随机抽取一个球,观察并记录它的颜色,将它放在一边,然后重复这个过程,直到取出\(n\)个球,\(0\leqslant n \leqslant N\)。
\(R_k\):第\(k\)次取出的是红球。
\(W_k\):第\(k\)次取出的是白球。
对于第\(k\)次(\(1 \leqslant k \leqslant N\))抽取而言,根据背景信息\(B\),取出红球和取出白球是互斥的,故有\(\overline{R_k}=W_k\)(\(\overline{W_k}=R_k\)),且根据加法规则满足\(p(R_k\mid B) + P(W_k\mid B) = 1\)。
特别地,对于第1次抽取而言,可以直接结合伯努利坛子规则得:
\[P(R_1\mid B) = \frac{M}{N}, \quad P(W_1\mid B) = 1 - \frac{M}{N}
\]
让我们重申一次:上述两个概率赋值不是对坛子与其容纳物的任何物理属性的断言,而是在抽取前对机器人知识状态的描述(初始时的知识状态即背景信息\(B\))。试想,如果机器人初始的知识状态与\(B\)不同,例如它知道坛子中红球和白球的实际位置,或者它不知道\(N\)与\(M\)的实际值,那么它对\(R_1\)和\(W_1\)的概率赋值将会不同,但是坛子本身的物理属性是一样的。
而当我们询问第二次抽取相关的概率时,机器人的知识状态就会出现变化。
