大数据处理中，如何避免检查者悖论在效应中放大？

摘要：本文分享自天翼云开发者社区《警惕大数据处理中的“检查者悖论》.作者：王****淋什么是检查者悖论：观察的角度不同，得出的统计结论也不同。有时又称为&quot;候车悖论&quot;, &qu

本文分享自天翼云开发者社区《警惕大数据处理中的“检查者悖论》.作者：王****淋什么是检查者悖论：观察的角度不同，得出的统计结论也不同。有时又称为"候车悖论", "等待时间悖论" 为了形象说明，我们设计了一种模拟场景: 班级人数统计，来用实例说明这个问题模拟场景: 班级人数统计小明与小华要完成一个任务：统计学校中的平均班级人数。但二人的实施方案不同： 1）小明找到了教务处老师，拿到了一份每班级人数统计名单。于是他计算到了班级平均人数 , 其中N为班级数量。 2）小华则不同, 他选择去街头询问。小华在校园中随机询问了M人, 得到了M个数字, 每个数字即为该被询问的同学所在的班级人数。于是他计算到了班级平均人数显然，二者的答案是不同的：假设此学校一共2个班级: 一个90人，另一个10人。则小明计算结果： C^{mean} = (10 + 90) / 2 = 50人。假设小华抽了10人，在随机抽样的情况下，大约9人属于班级1，1人属于班级2，小华计算结果 X^{mean} = (10*1 + 90*9) / 10 = 82人原因初探很明显, 结果出现了偏差。是什么导致了这种情况？其实，这就是"检查悖论" 每个班级人数不均衡情况下: 新问题提出 ================ 这时，自然的，我们提出一个问题：如果只有小华的数据，如何得到真实的统计结果，即班级平均人数 ? EM算法可以胜任这一问题：EM是一类算法，在包含隐变量的情况下，可以估算模型参数。下面以班级平均人数统计问题为例：其中，Si是已知量，ki为参数，sigma为隐变量，ni是观测变量。

大数据处理中，如何避免检查者悖论在效应中放大？

相关推荐