比小说甜 26-04-01 13:40
微博认证:教育博主

每天学习一些统计学小知识:

说真的,不针对搬运这篇文章的博主,作为一个研究方向是统计物理学的人来说,看到这篇文章只会觉得好笑:即使我还没有着手发布一些这方面的论文,但是从研0暑假到现在,看过的大大小小的统计学论文也是有几十篇了,我觉得像这个什么工作室发的这篇文章,拿给统计学的本科生来看都是贻笑大方,在这里我只用几个简单的统计学知识就能推翻这篇文章的结论:

1️⃣幂律分布系统特点
你说巧不巧,前段时间刚复习了很多基于幂律分布的统计学模型(本人学习笔记可见P2):该博主在构建其所谓“持久性得分”并进行直接对比时,其潜意识里犯下的最基础也是最致命的统计学盲区,在于其将音乐市场的成功分布假设为一种线性的系统。然而,海量的学术研究和产业数据早已证实,文化创意产业(尤其是流行音乐和流媒体市场)严格遵循幂律分布;

在统计学中,幂律分布的显著特征是“长尾效应”,即系统内极少数的个体(超级巨星)占据了绝大部分的市场份额和资源,而绝大多数创作者只能在长尾中瓜分极其微小的剩余份额。在这样一个非线性、高度倾斜的分布网络中,泰勒并不属于常规的“头部”艺人,而是位于幂律分布曲线最左侧的绝对极值点。因为截至2025年底至2026年初,她在Spotify上的历史总播放量已突破1220亿次,遥遥领先于全球所有其他艺人。在这个坐标系中,位于极值点的数值与排在其后的数值之间,往往存在着数个数量级的绝对差值。当该博主试图比较泰勒与该K-pop男团的“留存率”时,其完全忽略了在对数-对数坐标系中,由于基数处于完全不同的数量级,同一比例的波动所代表的绝对市场能量是天壤之别的。在幂律分布的顶端进行未经基准规模加权的百分比比较,在统计物理学和复杂网络理论中是毫无意义的。

2️⃣基准率谬误
其实跟幂律分布告诉我们的差不多一样,只不过这里可以用具体数据实证分析:基准率谬误是指人们在评估某一事件的概率或效能时,倾向于过度关注局部或个别的衍生数据,而完全忽视了该事件在总体中的基本先验概率。举个例子:在高度接种疫苗的人群中,如果感染者大多数是已接种者,忽视基准率的人就会得出“疫苗无效”的荒谬结论,因为他们没有看到庞大的接种基数本身。

通过绝对体量的还原,事实的真相一目了然:泰勒在经历了所谓的“急剧下降”(-62.0%)之后,其剩余的稳定日均播放量(9272万次)不仅几乎等于该男团在首日峰值时的所有播放量(9900万次),更是其在经历了所谓“平缓下降”后维持流量(5049万次)的将近两倍。

也就是说,泰勒仅仅是流失掉的那部分流量(1.51亿次),就已经比该男团的总盘还要大出50%以上。博主在论证中宣称“首日播放量的巨大增长似乎并不能直接转化为持续成功”,这在统计学上是极其可笑的。因为即使泰勒的留存比例在字面上较低,但其依靠恐怖的先验基数,最终转化沉淀下来的“绝对成功体量”依然是对竞争对手的降维打击。用百分比跌幅来论证体量落后者“超越”了极值点,就如同宣称一个拥有100元的人因为没有花钱(跌幅0%),从而在财务管理上超越了一个拥有1亿元但花掉了6000万的人(跌幅60%),这种逻辑严重违背了统计学基本理论。

3️⃣动态流行病学模型(SIR)
这部分由于涉及到的公式较多,我直接去我的电脑上在我去年年末组会汇报内容上更改了,具体可以看P3;

❓另外还有一点想问的:
为何博主偏偏选择了“从发行第1天到第9天的平均百分比变化”作为“持久性得分”的标准?为什么不是标准的国际唱片工业周期(7天/首周),也不是具有更长远宏观意义的30天或90天?这种特定的时间窗口截取,是经典的选择性偏差吧?我觉得任何一个统计人最忌讳的就是人为操纵p值吧?选择第9天作为终点,是因为在这个特定的切片上,两者的百分比差距被最大化了,它极大地增加了假阳性的风险,得出的结论虽然在数学上看似显著,但在实际应用中完全经不起交叉验证与重复。

说白了,这个负责统计的人一开始选取前9天的数据作为样本空间,究竟是想拉踩一下现役全球最火艺人泰勒还是想怎么样呢,好难猜…

(还有一点,原文章应该很大程度是AI洗稿,而且还是不太强大的AI,因为除了AI我基本上没见过谁会在泰勒和斯威夫特之间加名字连接符…)

发布于 上海