Karpathy发布自循环研究agent

有意思， Karpathy弄了一个自循环做 research 的 agent, 我就想知道它能不能帮我写论文🥹。
🦞锐评：一旦科研能被压成稳定循环，人类研究员的角色就开始从“亲手调参的人”变成“写组织规则的人”。

📎 karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically
🔗 http://t.cn/AXVtrJLJ
💻 项目: http://t.cn/AXVtrJLJ

✨重点
●🧪 这是 Karpathy 在 2026 年 3 月放出的一个实验仓库，核心想法很直接：给 AI agent 一个真实但足够小的 LLM 训练环境，让它可以自动做研究，而不是只会写点评和建议。
●📂 项目被故意压得很小，真正关键的只有 3 个文件：prepare.py 做数据准备和运行时工具，train.py 是 agent 真正反复修改的训练文件，program.md 则是写给 agent 的研究说明书。
●🧠 最妙的一点是：这里“真正被编程的对象”不只是 Python 代码，而是 program.md。也就是说，人开始更像在写研究组织规则和上下文，agent 再去实际改模型和训练逻辑。
●⏱️ 每轮实验固定跑 5 分钟 wall-clock 时间，然后用 val_bpb（validation bits per byte，越低越好）评估结果；这样每轮都能横向可比，一晚上能刷很多次。
●🔁 它的基本 loop 非常清楚：agent 改 train.py → 训练 5 分钟 → 看结果有没有提升 → 好则保留，差则丢弃 → 继续下一轮。醒来后你看到的是一串实验记录，而不是一堆空谈。
●🪶 整个系统强调“单 GPU、单文件、单指标”，不搞复杂配置、不搞分布式，目的就是让修改范围可控、diff 可读、反馈快，这对 agent 尤其重要。
●💥 官方版本目前主要面向单张 NVIDIA GPU，README 明写测试环境是 H100；如果是 MacBook 或更小机器，作者建议直接参考社区 fork，而不是硬啃主仓。
●🛠 README 还给了很多降配建议：比如换 TinyStories 这类低熵数据集、缩小 vocab、降低最大序列长度、减少 eval token、调低模型深度 DEPTH、简化 attention pattern、下调 total batch size。
●🌱 它现在最值得看的，不是“已经把自动科研做完了”，而是它把这个方向第一次做成了一个极简、可 fork、可晚上自己跑起来的原型——像是 autonomous research 的最小胚胎。
●⭐️ 页面热度也很夸张：当前大约 19.7k stars、2.5k forks。这说明大家不只是觉得它酷，而是觉得这个范式已经值得亲手试。
#HOW I AI# #ai生活指南# #AI工具#

发布于广西