DeepMind再登Nature:AI自主造出“最强”强化学习算法
强化学习(RL)是AI学会自主决策的核心技术,但几十年来,高效的RL算法都得靠人类专家反复试错设计。如今DeepMind团队在《自然》发表的新研究打破了这一惯例——他们让AI智能体自己“琢磨”出了RL算法,性能还远超人工设计的主流模型,标志着AI技术开始进入“自主进化”的新阶段。
这个名为DiscoRL的方法,核心是让智能体通过实战经验自己找规律。它的运作逻辑分两层:底层是智能体优化,智能体在环境中行动时,会输出策略、观测预测等结果,元网络给它设定学习目标,智能体再根据目标调整参数,过程中还用专门的数学方法保证训练稳定;上层是元优化,多个智能体在不同环境里并行“闯关”,元网络根据它们的整体表现持续优化规则,智能体定期重置参数,让新规则能快速迭代升级。
实验数据证明这套方法确实“能打”。在57款Atari游戏组成的经典测试中,AI自主发现的Disco57规则,综合性能得分达到13.86,不仅超过了MuZero、Dreamer等顶尖人工算法,运行效率也明显更高。更关键的是它的泛化能力——在从未接触过的16款ProcGen游戏、Crafter基准测试中,Disco57都表现出色,甚至在复杂的NetHack竞赛中拿了第三名,还没用到任何专属领域知识。
研究还发现了一个有趣的规律:训练环境越多样,AI造出的算法越强。用Atari、ProcGen等103个环境训练出的Disco103规则,在Crafter测试中达到了人类水平,在Sokoban游戏里也接近MuZero的最佳成绩。而且这套算法的研发效率极高,Disco57的最优版本仅用每个游戏约6亿步的训练量就成型,相当于3轮实验的工作量,远少于人类团队经年累月的调试成本。
这一突破的意义远超技术本身。以前人类设计RL算法,既需要深厚的专业积累,又要耗费大量试错成本,还容易受思维局限。现在AI能自主发现更优规则,意味着未来高级AI的核心算法可能不再依赖人类,只要给足数据和计算资源,机器就能自己迭代出更强的“学习能力”。
从AlphaGo到AlphaFold,DeepMind一直在突破AI的边界。这次让AI自己设计算法,不仅为强化学习研究开辟了新路径,更让人们看到了AI从“被动学习”走向“主动进化”的可能,为机器人控制、科学计算等复杂领域的应用埋下了新的伏笔。#微博兴趣创作计划##ai前沿速递# http://t.cn/AXAzSv2e
发布于 福建
