麻省理工科技评论 26-03-23 18:17
微博认证:《麻省理工科技评论》杂志官方微博

【不用一个字,MIT团队让细胞自动机教会了大模型推理】

1970 年,数学家约翰·康威发明了“生命游戏”(Game of Life)。在一块无限延伸的棋盘上,每个方格非生即死,遵循几条极其简单的规则:活细胞如果邻居太少就会孤独而死,太多则因拥挤而亡;死细胞恰好有三个活邻居就会复活。

没有人下棋,没有人操控,但这些简单规则跑起来之后,屏幕上会涌现出滑翔机、脉冲枪、甚至可以模拟图灵机的复杂结构。半个多世纪以来,这个实验一直被视为复杂性科学的经典演示,展示简单规则如何生成无穷复杂的行为。

没人想过这些东西能教 #AI# 说话。直到现在。

MIT Improbable AI 实验室 Pulkit Agrawal 团队在今年 3 月发表了一篇论文,提出了一个听起来相当不合常理的想法:用类似“生命游戏”的细胞自动机生成的数据,去预训练大型语言模型。这些数据不包含任何文字、任何语义,只是一个 12×12 网格上像素不断演化的轨迹。

但实验结果显示,在这些纯粹的“动态图案”上训练过的模型,在随后的自然语言学习中表现得更好,困惑度(perplexity)降低了最多 6%,收敛速度加快了最多 1.6 倍。更让人意外的是,仅用 1.64 亿个细胞自动机 token 做预训练,效果竟然超过了用 16 亿个真实英语文本(来自 Common Crawl 数据集 C4)做同样的预训练。

戳链接查看详情:http://t.cn/AXfTIjqt