首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 企业软件 > 行业软件 >

数据能骗人:辛普森悖论

2013-10-16 
数据会骗人:辛普森悖论女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却

数据会骗人:辛普森悖论

女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。

就上述例子说,导致辛普森悖论有两个前提。

  1. 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生。使得最后汇总的时候,男生在数量上反而占优。
  2. 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人牵强误认为这是由性别差异而造成的。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。

参考地址:

http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA

http://plato.stanford.edu/entries/paradox-simpson/#Causation

热点排行