MIT团队用细胞自动机训练大模型

【不用一个字，MIT团队让细胞自动机教会了大模型推理】

1970 年，数学家约翰·康威发明了“生命游戏”（Game of Life）。在一块无限延伸的棋盘上，每个方格非生即死，遵循几条极其简单的规则：活细胞如果邻居太少就会孤独而死，太多则因拥挤而亡；死细胞恰好有三个活邻居就会复活。

没有人下棋，没有人操控，但这些简单规则跑起来之后，屏幕上会涌现出滑翔机、脉冲枪、甚至可以模拟图灵机的复杂结构。半个多世纪以来，这个实验一直被视为复杂性科学的经典演示，展示简单规则如何生成无穷复杂的行为。

没人想过这些东西能教 #AI# 说话。直到现在。

MIT Improbable AI 实验室 Pulkit Agrawal 团队在今年 3 月发表了一篇论文，提出了一个听起来相当不合常理的想法：用类似“生命游戏”的细胞自动机生成的数据，去预训练大型语言模型。这些数据不包含任何文字、任何语义，只是一个 12×12 网格上像素不断演化的轨迹。

但实验结果显示，在这些纯粹的“动态图案”上训练过的模型，在随后的自然语言学习中表现得更好，困惑度（perplexity）降低了最多 6%，收敛速度加快了最多 1.6 倍。更让人意外的是，仅用 1.64 亿个细胞自动机 token 做预训练，效果竟然超过了用 16 亿个真实英语文本（来自 Common Crawl 数据集 C4）做同样的预训练。

戳链接查看详情：http://t.cn/AXfTIjqt