从玩家玩法总结中能看到，清华大学论文RDT是绕不过去了，那就有请论文第一作者刘松铭博士，我观察到对他对具身智能的思考十分深刻。以下由对话形式呈现：第一个问题：我们怎么理解扩散模型和自回归模型？他回答：自回归有两个关键问题：1. 离散化：自回归需要基于离散概率采样，而具身的action天

从玩家玩法总结中能看到，清华大学论文RDT是绕不过去了，那就有请论文第一作者刘松铭博士，我观察到对他对具身智能的思考十分深刻。
以下由对话形式呈现：
第一个问题：
我们怎么理解扩散模型和自回归模型？
他回答：自回归有两个关键问题：
1. 离散化：自回归需要基于离散概率采样，而具身的action天然连续。这二者之间会存在量化误差，而具身的操作任务对误差极其敏感。对于灵巧操作任务，可能需要亚毫米精度。
2. 自回归需逐个生成词元，受限于端侧硬件（显卡带宽小），会导致模型推理速度较慢，而具身对控制频率有较高要求（一般操作任务，至少需要10Hz推理频率，而100ms对于VLM或者VLA来说，太短了）。
虽然这两点目前业界都有一些解决方案，但远远达不到完美。本质在于，在高维连续分布中进行采样并不简单，是一个复杂的问题（non-trivial problem），而扩散模型是解决这一问题的有力工具：它本身是连续的，并且扩散过程不依赖自回归，它是并行计算的，极大提升了推理速度。
经过蒸馏，单步扩散（one-step Diffusion），甚至可以完成抛投等动态操作任务。第二个问题：你们在扩散模型上做了什么关键工作？1.我们首次将扩散模型在具身任务上扩展到十亿参数规模，我们的实验证明的扩散模型路线在具身领域是可扩展的。计算规模的扩大会直接带来性能提升。为了能让这个模型扩展，我们在扩散模型去噪网络架构上做了相当多的工作：
包括选择合适的normalization方法，选择合适的条件注入方式以及提升模型对非线性的适应能力。这些都是具身领域都有的挑战。这些工作尽管比较工程，但都是扩展模型必不可缺的，我们的消融实验表明缺少了任意一项技术，模型的扩展性都会失败。这些在可扩展性上的努力是Diffusion Policy的关键。这也让我们成为目前最大的扩散结构，Pi0的扩散模型部分只有300M，我们认为这会影响它的表达能力。

2.为了能支撑这么大规模模型的训练，我们准备了相当多的开源数据。当然，这里面的工作并不是几行代码就搞定的。我们独家的数据集配方里包含了46个不同机器人数据，为了能训练发挥出最大的效果，团队逐个数据集去清洗，清洗掉那些有错误或者传感器异常的数据。实验中的“脏活累活”实际上对模型性能提升非常重要。“Data is almost everything.”为了不让别人重复脏累活，我们将数据处理的代码全部开源。此外，我们注意到，可用的双臂数据集非常少。于是，采集了6K条双臂数据，精心设计了多项任务，是目前双臂数据集中多样性最好的之一。
3.在不懈“调参”下，我们的模型取得了不错的性能。有时候确实有点像老厨师烹饪，没有太多规律，摸索了很多配方，把我们发现的最好的，开放给大家）。据开源社区反馈，即使Pi0发布之后，我们的模型依然很能打（嘿嘿）。我推测，不同的模型有各自适用的任务。不过，缺点也有，纯扩散结构比较吃算力，但算力给够模型的性能可以持续提升。感谢刘松铭博士，他对RDT的讲解十分细致。
最后，清华大学刘松铭博士的原话：“让我们再来谈谈这件事的本质。Diffusion采用连续的形式去建模动作分布，自回归则用离散类别去模拟。前者昂贵而有效，后者简单（仅需类似轮盘赌的方法）但失真。我们目前选择了最稳的办法。但也不好说，也许有一天我们会猛然发现这个世界的本质是离散的，只不过我们缺少合适的离散化方法。”

发布于广东