这篇论文确实具有突破性意义。它解决了机器学习领域长期存在的难题：尽管深度学习备受追捧，但传统的基于树的方法（例如 XGBoost、CatBoost、随机森林等）在过去二十年中一直主导着表格数据——现实世界应用中最常见的数据格式。深度学习已经征服了图像、文本和游戏，但电子表格数据却始终难以撼动。

这篇论文确实具有突破性意义。

它解决了机器学习领域长期存在的难题：尽管深度学习备受追捧，但传统的基于树的方法（例如 XGBoost、CatBoost、随机森林等）在过去二十年中一直主导着表格数据——现实世界应用中最常见的数据格式。深度学习已经征服了图像、文本和游戏，但电子表格数据却始终难以撼动。

这篇论文（顺便一提，发表在《自然》杂志上）的主要贡献在于提出了一种基础模型，该模型最终在中小数据集上显著优于基于树的方法，而且速度极快。TabPFN 仅需 2.8 秒即可超越经过 4 小时调优的 CatBoost，速度提升了 5000 倍。这并非渐进式的改进，而是完全不同的境界。

它们的训练方法也截然不同。GPT 使用互联网文本进行训练；CLIP 使用图像-描述对进行训练；而 TabPFN 则使用完全合成的数据进行训练——超过 1 亿个由因果图生成的人工数据集。

TabPFN 通过随机构建有向无环图来生成训练数据，其中每条边都应用随机变换（使用神经网络、决策树、离散化或噪声），然后将随机噪声通过根节点推送，使其在图中传播——各个节点的中间值成为特征，其中一个成为目标值，后处理则添加诸如缺失值和异常值等真实混乱情况。通过在数百万个结构迥异的合成数据集上进行训练，该模型无需接触真实数据即可学习通用的预测策略。

TabPFN的推理机制也十分独特。它并非采用微调或提示的方式，而是在一次前向传播中同时完成“训练”和预测。您只需将已标注的训练数据和未标注的测试点一起输入，它就能立即输出预测结果。推理过程中无需梯度下降——模型在预训练阶段就已经学会了如何从示例中学习。

该架构尊重表格结构，并具有双向注意力机制（先关注行内的特征，再关注列内的样本），这与将所有内容视为扁平序列的标准转换器不同。

所以，Transformer 基本上已经学会了进行监督学习。

在 ChapterPal 上与论文作者交流： chapterpal.com/s/a1899430/acc…
#ai创造营##科技先锋官##ai生活指南#

发布于中国香港