陈大军看市 25-04-01 07:47
微博认证:投资内容创作者 头条文章作者

从玩家玩法总结中能看到,清华大学论文RDT是绕不过去了,那就有请论文第一作者刘松铭博士,我观察到对他对具身智能的思考十分深刻。
以下由对话形式呈现:
第一个问题:
我们怎么理解扩散模型和自回归模型?
他回答:自回归有两个关键问题:
1. 离散化:自回归需要基于离散概率采样,而具身的action天然连续。这二者之间会存在量化误差,而具身的操作任务对误差极其敏感。对于灵巧操作任务,可能需要亚毫米精度。
2. 自回归需逐个生成词元,受限于端侧硬件(显卡带宽小),会导致模型推理速度较慢,而具身对控制频率有较高要求(一般操作任务,至少需要10Hz推理频率,而100ms对于VLM或者VLA来说,太短了)。
虽然这两点目前业界都有一些解决方案,但远远达不到完美。本质在于,在高维连续分布中进行采样并不简单,是一个复杂的问题(non-trivial problem),而扩散模型是解决这一问题的有力工具:它本身是连续的,并且扩散过程不依赖自回归,它是并行计算的,极大提升了推理速度。
经过蒸馏,单步扩散(one-step Diffusion),甚至可以完成抛投等动态操作任务。第二个问题:你们在扩散模型上做了什么关键工作?1.我们首次将扩散模型在具身任务上扩展到十亿参数规模,我们的实验证明的扩散模型路线在具身领域是可扩展的。计算规模的扩大会直接带来性能提升。为了能让这个模型扩展,我们在扩散模型去噪网络架构上做了相当多的工作:
包括选择合适的normalization方法,选择合适的条件注入方式以及提升模型对非线性的适应能力。这些都是具身领域都有的挑战。这些工作尽管比较工程,但都是扩展模型必不可缺的,我们的消融实验表明缺少了任意一项技术,模型的扩展性都会失败。这些在可扩展性上的努力是Diffusion Policy的关键。这也让我们成为目前最大的扩散结构,Pi0的扩散模型部分只有300M,我们认为这会影响它的表达能力。

2.为了能支撑这么大规模模型的训练,我们准备了相当多的开源数据。当然,这里面的工作并不是几行代码就搞定的。我们独家的数据集配方里包含了46个不同机器人数据,为了能训练发挥出最大的效果,团队逐个数据集去清洗,清洗掉那些有错误或者传感器异常的数据。实验中的“脏活累活”实际上对模型性能提升非常重要。“Data is almost everything.”为了不让别人重复脏累活,我们将数据处理的代码全部开源。此外,我们注意到,可用的双臂数据集非常少。于是,采集了6K条双臂数据,精心设计了多项任务,是目前双臂数据集中多样性最好的之一。
3.在不懈“调参”下,我们的模型取得了不错的性能。有时候确实有点像老厨师烹饪,没有太多规律,摸索了很多配方,把我们发现的最好的,开放给大家)。据开源社区反馈,即使Pi0发布之后,我们的模型依然很能打(嘿嘿)。我推测,不同的模型有各自适用的任务。不过,缺点也有,纯扩散结构比较吃算力,但算力给够模型的性能可以持续提升。感谢刘松铭博士,他对RDT的讲解十分细致。
最后,清华大学刘松铭博士的原话:“让我们再来谈谈这件事的本质。Diffusion采用连续的形式去建模动作分布,自回归则用离散类别去模拟。前者昂贵而有效,后者简单(仅需类似轮盘赌的方法)但失真。我们目前选择了最稳的办法。但也不好说,也许有一天我们会猛然发现这个世界的本质是离散的,只不过我们缺少合适的离散化方法。”

发布于 广东