大数据处理中,如何避免检查者悖论在效应中放大?
摘要:本文分享自天翼云开发者社区《警惕大数据处理中的“检查者悖论》.作者:王****淋 什么是检查者悖论: 观察的角度不同,得出的统计结论也不同。有时又称为"候车悖论", &qu
本文分享自天翼云开发者社区《警惕大数据处理中的“检查者悖论》.作者:王****淋
什么是检查者悖论:
观察的角度不同,得出的统计结论也不同。有时又称为"候车悖论", "等待时间悖论"
为了形象说明,我们设计了一种模拟场景: 班级人数统计,来用实例说明这个问题
模拟场景: 班级人数统计
小明与小华要完成一个任务:统计学校中的 平均班级人数。但二人的实施方案不同:
1)小明找到了教务处老师,拿到了一份每班级人数统计名单。 于是他计算到了班级平均人数
, 其中N为班级数量。
2)小华则不同, 他选择去街头询问。小华在校园中随机询问了M人, 得到了M个数字, 每个数字即为该被询问的同学所在的班级人数。于是他计算到了班级平均人数
显然,二者的答案是不同的:
假设此学校一共2个班级: 一个90人,另一个10人。则小明计算结果: C^{mean} = (10 + 90) / 2 = 50人。
假设小华抽了10人,在随机抽样的情况下,大约9人属于班级1,1人属于班级2,小华计算结果 X^{mean} = (10*1 + 90*9) / 10 = 82人
原因初探
很明显, 结果出现了偏差。是什么导致了这种情况?其实,这就是"检查悖论"
每个班级人数不均衡情况下:
新问题提出 ================
这时,自然的,我们提出一个问题:如果只有小华的数据,如何得到真实的统计结果,即班级平均人数 ?
EM算法可以胜任这一问题:EM是一类算法, 在包含隐变量的情况下,可以估算模型参数。
下面以班级平均人数统计问题为例:
其中,Si是已知量,ki为参数,sigma为隐变量,ni是观测变量。
