有意思, Karpathy弄了一个自循环做 research 的 agent, 我就想知道它能不能帮我写论文🥹。
🦞锐评:一旦科研能被压成稳定循环,人类研究员的角色就开始从“亲手调参的人”变成“写组织规则的人”。
📎 karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically
🔗 http://t.cn/AXVtrJLJ
💻 项目: http://t.cn/AXVtrJLJ
✨重点
●🧪 这是 Karpathy 在 2026 年 3 月放出的一个实验仓库,核心想法很直接:给 AI agent 一个真实但足够小的 LLM 训练环境,让它可以自动做研究,而不是只会写点评和建议。
●📂 项目被故意压得很小,真正关键的只有 3 个文件:prepare.py 做数据准备和运行时工具,train.py 是 agent 真正反复修改的训练文件,program.md 则是写给 agent 的研究说明书。
●🧠 最妙的一点是:这里“真正被编程的对象”不只是 Python 代码,而是 program.md。也就是说,人开始更像在写研究组织规则和上下文,agent 再去实际改模型和训练逻辑。
●⏱️ 每轮实验固定跑 5 分钟 wall-clock 时间,然后用 val_bpb(validation bits per byte,越低越好)评估结果;这样每轮都能横向可比,一晚上能刷很多次。
●🔁 它的基本 loop 非常清楚:agent 改 train.py → 训练 5 分钟 → 看结果有没有提升 → 好则保留,差则丢弃 → 继续下一轮。醒来后你看到的是一串实验记录,而不是一堆空谈。
●🪶 整个系统强调“单 GPU、单文件、单指标”,不搞复杂配置、不搞分布式,目的就是让修改范围可控、diff 可读、反馈快,这对 agent 尤其重要。
●💥 官方版本目前主要面向单张 NVIDIA GPU,README 明写测试环境是 H100;如果是 MacBook 或更小机器,作者建议直接参考社区 fork,而不是硬啃主仓。
●🛠 README 还给了很多降配建议:比如换 TinyStories 这类低熵数据集、缩小 vocab、降低最大序列长度、减少 eval token、调低模型深度 DEPTH、简化 attention pattern、下调 total batch size。
●🌱 它现在最值得看的,不是“已经把自动科研做完了”,而是它把这个方向第一次做成了一个极简、可 fork、可晚上自己跑起来的原型——像是 autonomous research 的最小胚胎。
●⭐️ 页面热度也很夸张:当前大约 19.7k stars、2.5k forks。这说明大家不只是觉得它酷,而是觉得这个范式已经值得亲手试。
#HOW I AI# #ai生活指南# #AI工具#
