姜博杨
25-12-04 23:26 微博认证:艺术家 2021年度微博最具商业价值新锐大V 科技博主 微博原创视频博主

这篇论文确实具有突破性意义。

它解决了机器学习领域长期存在的难题:尽管深度学习备受追捧,但传统的基于树的方法(例如 XGBoost、CatBoost、随机森林等)在过去二十年中一直主导着表格数据——现实世界应用中最常见的数据格式。深度学习已经征服了图像、文本和游戏,但电子表格数据却始终难以撼动。

这篇论文(顺便一提,发表在《自然》杂志上)的主要贡献在于提出了一种基础模型,该模型最终在中小数据集上显著优于基于树的方法,而且速度极快。TabPFN 仅需 2.8 秒即可超越经过 4 小时调优的 CatBoost,速度提升了 5000 倍。这并非渐进式的改进,而是完全不同的境界。

它们的训练方法也截然不同。GPT 使用互联网文本进行训练;CLIP 使用图像-描述对进行训练;而 TabPFN 则使用完全合成的数据进行训练——超过 1 亿个由因果图生成的人工数据集。

TabPFN 通过随机构建有向无环图来生成训练数据,其中每条边都应用随机变换(使用神经网络、决策树、离散化或噪声),然后将随机噪声通过根节点推送,使其在图中传播——各个节点的中间值成为特征,其中一个成为目标值,后处理则添加诸如缺失值和异常值等真实混乱情况。通过在数百万个结构迥异的合成数据集上进行训练,该模型无需接触真实数据即可学习通用的预测策略。

TabPFN的推理机制也十分独特。它并非采用微调或提示的方式,而是在一次前向传播中同时完成“训练”和预测。您只需将已标注的训练数据和未标注的测试点一起输入,它就能立即输出预测结果。推理过程中无需梯度下降——模型在预训练阶段就已经学会了如何从示例中学习。

该架构尊重表格结构,并具有双向注意力机制(先关注行内的特征,再关注列内的样本),这与将所有内容视为扁平序列的标准转换器不同。

所以,Transformer 基本上已经学会了进行监督学习。

在 ChapterPal 上与论文作者交流: chapterpal.com/s/a1899430/acc…
#ai创造营##科技先锋官##ai生活指南#

发布于 中国香港