清华开了个新框架,让AI自己写代码做科研,结果跑赢了前沿算法。
刚看了清华李佳课题组刚开源的Alchemy框架
说几个关键点:
· 定位:面向自动化AI科研的“标准化研究环境”
· 解决什么问题:现在AI Scientist既要搞算法创新,又要处理数据预处理、训练流程、资源调度这些工程杂活,上下文窗口和算力被大量浪费在非核心环节
· 怎么做的:把工程基础设施提前搭好,AI Scientist只需要提交一个.py文件和一个.yaml配置,剩下的事框架管
最让人意外的是实验结果
他们用这个框架跑了一个多模态推荐任务,Seed Baseline是AAAI 2025的前沿工作PGL。AI Scientist在完全无人干预的情况下,持续跑了一整天实验,不断迭代修正代码,最终生成的模型超过了原来的Seed Baseline。
关键改进是什么?AI自己给PGL加了一个“模态感知的边重加权机制”——在推理时让那些与用户历史偏好在模态空间更一致的边获得更强传播权重。这个洞察,是AI自己总结出来的。
评论区有句话我挺认同:“Alchemy的核心是解放人力,让我们从重复的工程活里抽离,专注于提出更有价值的科研假设。”
目前框架覆盖推荐系统、时间序列、图学习3个领域16个任务,每个任务至少预置3个Seed Baseline开箱即用。异构算力调度、并发控制这些也做了。
一点个人观察
这类东西这两年不少,FARS、autoresearch都在做,但清华这个方向更务实——不追求AI一步到位搞出颠覆性创新,而是先把“跑实验”这个最耗人力的环节自动化。100个算法并发跑,差的自动淘汰,好的继续迭代,这种规模化试错能力,其实比单一算法突破更有工程价值。
你觉得AI做科研,最大的瓶颈在哪?欢迎聊聊。 http://t.cn/AXfRpcWY
发布于 福建
