和魂洋才鱼得利 26-02-11 00:25

统计学上,后延续至机器学习(machine learning )中有一个很重要的概念 - overfitting. 我搜寻了一下,据说中文叫”过拟合”。

在处理信噪比的工作中,噪音 - 也就是数据中各种完全随机的误差,测量误差(尤其模拟信号),各种误导人的 outlier 等等,需要被大量高效地处理掉,其中对各种小怪癖的overfitting ,是最常见的致命错误。

Overfitting 就是训练模型错误地把噪音全部捡了起来当成了信号来判断,从而影响了对真正的趋势与底层数据的判断。结果就是这个模型会在现有的训练数据上表现优秀,但一旦有新的数据进来就彻底歇逼。换句话说,这个模型只能处理这一种情况,无法被推广到去处理其他数据。

很多人的脑子就是这样,overfitting 废了,对话三分钟后就发现他的模型只能处理一种数据,可能处理得相当不错,但也仅限于此。

发布于 上海