统计学博士驳斥音乐播放量分析

每天学习一些统计学小知识：

说真的，不针对搬运这篇文章的博主，作为一个研究方向是统计物理学的人来说，看到这篇文章只会觉得好笑：即使我还没有着手发布一些这方面的论文，但是从研0暑假到现在，看过的大大小小的统计学论文也是有几十篇了，我觉得像这个什么工作室发的这篇文章，拿给统计学的本科生来看都是贻笑大方，在这里我只用几个简单的统计学知识就能推翻这篇文章的结论：

1️⃣幂律分布系统特点
你说巧不巧，前段时间刚复习了很多基于幂律分布的统计学模型（本人学习笔记可见P2）：该博主在构建其所谓“持久性得分”并进行直接对比时，其潜意识里犯下的最基础也是最致命的统计学盲区，在于其将音乐市场的成功分布假设为一种线性的系统。然而，海量的学术研究和产业数据早已证实，文化创意产业（尤其是流行音乐和流媒体市场）严格遵循幂律分布；

在统计学中，幂律分布的显著特征是“长尾效应”，即系统内极少数的个体（超级巨星）占据了绝大部分的市场份额和资源，而绝大多数创作者只能在长尾中瓜分极其微小的剩余份额。在这样一个非线性、高度倾斜的分布网络中，泰勒并不属于常规的“头部”艺人，而是位于幂律分布曲线最左侧的绝对极值点。因为截至2025年底至2026年初，她在Spotify上的历史总播放量已突破1220亿次，遥遥领先于全球所有其他艺人。在这个坐标系中，位于极值点的数值与排在其后的数值之间，往往存在着数个数量级的绝对差值。当该博主试图比较泰勒与该K-pop男团的“留存率”时，其完全忽略了在对数-对数坐标系中，由于基数处于完全不同的数量级，同一比例的波动所代表的绝对市场能量是天壤之别的。在幂律分布的顶端进行未经基准规模加权的百分比比较，在统计物理学和复杂网络理论中是毫无意义的。

2️⃣基准率谬误
其实跟幂律分布告诉我们的差不多一样，只不过这里可以用具体数据实证分析：基准率谬误是指人们在评估某一事件的概率或效能时，倾向于过度关注局部或个别的衍生数据，而完全忽视了该事件在总体中的基本先验概率。举个例子：在高度接种疫苗的人群中，如果感染者大多数是已接种者，忽视基准率的人就会得出“疫苗无效”的荒谬结论，因为他们没有看到庞大的接种基数本身。

通过绝对体量的还原，事实的真相一目了然：泰勒在经历了所谓的“急剧下降”（-62.0%）之后，其剩余的稳定日均播放量（9272万次）不仅几乎等于该男团在首日峰值时的所有播放量（9900万次），更是其在经历了所谓“平缓下降”后维持流量（5049万次）的将近两倍。

也就是说，泰勒仅仅是流失掉的那部分流量（1.51亿次），就已经比该男团的总盘还要大出50%以上。博主在论证中宣称“首日播放量的巨大增长似乎并不能直接转化为持续成功”，这在统计学上是极其可笑的。因为即使泰勒的留存比例在字面上较低，但其依靠恐怖的先验基数，最终转化沉淀下来的“绝对成功体量”依然是对竞争对手的降维打击。用百分比跌幅来论证体量落后者“超越”了极值点，就如同宣称一个拥有100元的人因为没有花钱（跌幅0%），从而在财务管理上超越了一个拥有1亿元但花掉了6000万的人（跌幅60%），这种逻辑严重违背了统计学基本理论。

3️⃣动态流行病学模型（SIR）
这部分由于涉及到的公式较多，我直接去我的电脑上在我去年年末组会汇报内容上更改了，具体可以看P3；

❓另外还有一点想问的：
为何博主偏偏选择了“从发行第1天到第9天的平均百分比变化”作为“持久性得分”的标准？为什么不是标准的国际唱片工业周期（7天/首周），也不是具有更长远宏观意义的30天或90天？这种特定的时间窗口截取，是经典的选择性偏差吧？我觉得任何一个统计人最忌讳的就是人为操纵p值吧？选择第9天作为终点，是因为在这个特定的切片上，两者的百分比差距被最大化了，它极大地增加了假阳性的风险，得出的结论虽然在数学上看似显著，但在实际应用中完全经不起交叉验证与重复。

说白了，这个负责统计的人一开始选取前9天的数据作为样本空间，究竟是想拉踩一下现役全球最火艺人泰勒还是想怎么样呢，好难猜…

（还有一点，原文章应该很大程度是AI洗稿，而且还是不太强大的AI，因为除了AI我基本上没见过谁会在泰勒和斯威夫特之间加名字连接符…）

发布于上海