大数据研究误判现象分析

这几年不止一次看到那种基于大数据研究产生对社会事实的误判现象了，尤其是性别议题上，很多研究者喜欢先预设一些结论再去找数据，或者应用大型数据时，往往不去考虑数据本身的特征，于是很容易出现偏差。

比如说基于某些人口普查数据，认定某个大城市的性别比超出正常范围，超过110。是因为性别地位变化、重男轻女开始选择性生育了吗？最后发现，其实是统计口径上理解错误，按0岁出生出生人口作为性别比数据依据，发生了偏差。由于当地流动人口生育增加，在当地生育数量增加，全地区外来人口0岁人口性别比就有111.76（2010年时超过了119），加上当地医疗水平这些年提高比较快，男婴成活率变高等因素影响。即使是同年同一个地区的普查数据，规模大小不同，也会造成很大的结果波动，比如说用全部人口的短答数据，0岁人口占约8万人，性别比是110.56，用10％人口的长表，0岁人口占8千人，性别比就会变成114.3。

再比如前几年有个全国妇女地位变化的调查，引发过很多研究者关注：这个调查发现女性婚配时不喜欢传统的“男大女小”了，喜欢找弟弟、找比自己小的丈夫的女性数量增加，几乎和传统数量持平了。这是什么爆炸性结论嘛，大家听了都很关心。结果最后发现，调查者在2010年后没有把男性纳入调查，全找的女受访者，造成“姐弟恋”偏差。

这些年学界慢慢开始出现这种对大数据应用、量化研究的反思，因为如果只看数据本身，很容易出现各种对事实的错位理解和误判。

现在看数据时我更多会保持警惕，多问问数据是怎么得到的，有什么局限，设计过程中有什么遗漏，有哪些干扰因素……如果不把这些列入考虑，不去考虑数据背后的逻辑，以此获得的对社会现实的判断，往往是容易出偏差的。

发布于江苏