【PNAS新方法，解决自评量表中普遍存在的反应偏差问题？控制后，相关系数可变大？[666]】小明和小亮给10位司机打分：小明打分总是很“极端”，要么1星、要么5星；而小亮打分总是很“中庸”，80%情况下都打3星。即便他们对司机们的感受是相似的，但他们的最终评价却大相径庭，这是由于他们的「反应偏差

【PNAS新方法，解决自评量表中普遍存在的反应偏差问题？控制后，相关系数可变大？[666]】
小明和小亮给10位司机打分：小明打分总是很“极端”，要么1星、要么5星；而小亮打分总是很“中庸”，80%情况下都打3星。即便他们对司机们的感受是相似的，但他们的最终评价却大相径庭，这是由于他们的「反应偏差」（response biases）存在重要区别。

《美国国家科学院院报(PNAS)》刊登了纽卡斯尔大学研究者的一项研究，他们受到心理物理学方法的启发，提出了一种基于模型的解决办法，用于识别和控制受访者在填答Likert量表时的反应偏差。

上述小明和小亮的例子，想要说明的是自评量表中存在的一个重要局限：研究者通常将量表分数直接解释为受访者的「潜在状态」（latent state）；但实际上，该分数反映的是「潜在状态」+因人而异的「填答风格」（decision styles）二者的混合物。

因此，如果研究者不对因人而异的「填答风格」做控制，而直接将「量表分数」的对比视同「潜在状态」的对比，可能带来许多混淆，例如不同国家、种族、语言群体的填答风格可能存在系统性差异。

这篇文章所提出的新办法，就是针对这种困境。研究者试图运用模型手段，将每个受访者独特的「填答风格」从量表分数中识别出来，这样一来，剩下的部分就是研究者想要测量的「潜在状态」了。

具体而言，研究者以IPIP大五人格的数据作为示例，运用有序probit模型，识别出若干「填答风格」：极端、居中、左倾、右倾、其它。（如图1）

为什么要识别这些填答风格？好处之一在于，在统计模型中控制（排除）这种混淆以后，研究者核心关注的变量关系可以得到更好的估计。例如：

- 不控制填答风格的情况下，外向性和宜人性的相关系数是.30；控制以后，增长至.42。

- 不控制填答风格的情况下，经验开放性和宜人性的相关系数是.18；控制以后，增长至.32。

大五人格的5个维度都在两两之间做了这种比较，总体来看，相关系数平均增长了71.83%。

研究者指出，这种分析方法可以应用于大多数Likert量表，而且可以在数据已经采集以后做分析，不需要提前明确焦点潜在状态是什么、量表条目有多少、选项有多少、选项标签是什么、存在哪些填答风格。这种方法可以有效地从量表分数中分离出反应偏差，由此生成更接近事实本身的潜在状态估计。

来源：Grimmond, J., Brown, S. D., & Hawkins, G. E. (2025). A solution to the pervasive problem of response bias in self-reports. Proceedings of the National Academy of Sciences of the United States of America, 122(3), e2412807122. doi: 10.1073/pnas.2412807122

发布于北京