如果把AI丢进一个没有标准答案的工程现场,它还能活下来吗?
长期以来,AI Agent看起来无所不能,实则大多是在已知知识库里“翻记忆”。
但真实的工程世界是残酷的:水下机器人的稳定性、动力电池的析锂边界、量子线路的噪声控制……这些问题没有“满分”,只有“更逼近极限的优化”。
近期,Einsia AI旗下Navers lab发布的Agent Benchmark——Frontier-Eng Bench,正式撕掉了AI“做题家”的标签。 http://t.cn/AXiVeJNc
如果把AI丢进一个没有标准答案的工程现场,它还能活下来吗?
长期以来,AI Agent看起来无所不能,实则大多是在已知知识库里“翻记忆”。
但真实的工程世界是残酷的:水下机器人的稳定性、动力电池的析锂边界、量子线路的噪声控制……这些问题没有“满分”,只有“更逼近极限的优化”。
近期,Einsia AI旗下Navers lab发布的Agent Benchmark——Frontier-Eng Bench,正式撕掉了AI“做题家”的标签。 http://t.cn/AXiVeJNc