具身模型测评探讨

【#具身模型哪家强#？与范浩强、高阳聊具身模型的测评、RoboChallenge，26 年具身展望】虚拟空间的大模型有大量 benchmark，测试非常直观；而在如火如荼的具身领域，怎么衡量模型能力，本身还是需要探索的课题。

这期，我们邀请了两位具身智能从业者，原力灵机联创范浩强和千寻智能联创与首席科学家高阳，一起聊具身模型的测评。

范浩强从高三就开始在旷视工作，有丰富的计算机视觉开发和落地经验；高阳回国前在伯克利 BAIR 攻读博士，和 PI 的联创 Sergey Levine 有诸多学术合作。

去年 10 月，原力灵机和 Hugging Face 联合发起了全球首个具身智能的大规模真机评测平台 RoboChallenge。在前不久释放的最新测评结果中，千寻的 Spirit v1.5 模型登顶榜单，表现超过 π*0.5。

在 RoboChallenge 的测评中，机器人不再只活在精挑细选的 Demo 视频里，而是要在多样化的“Table 30”任务中接受真实世界的“毒打”——任务包括碎纸、插花，扫二维码。

这期我们聊了具身模型测评的难点，RoboChallenge、RoboArena 等目前的大规模测评尝试是怎样的思路？行业里心照不宣的 demo 工程，以及 2026 年，我们可能从哪些路径逼近具身智能的 GPT-3 时刻。

范浩强和高阳说，组织和参与测评的过程，组织和参与测评的过程，本身增强了他们对具身的信心，，从 π*0 在 Table 30 任务上只有 20% 的成功率到 π*0.5 的翻倍和一些国产模型的超越，具身仍很早期，但进步速度也很惊人。#微博声浪计划##听见微博# http://t.cn/AXqMgdRW

发布于北京