Helix大模型架构解析

Figure AI的Helix是一个VLA大模型，从架构上来看，这就是一个已经在国内辅助驾驶上“应用”一两年、“被落后”的「快慢脑」方案，

System2：慢脑或者叫大脑，是一个70亿参数VLM模型，负责提供认知，且想清楚一件事情应该怎么干，指挥小脑，
System1 ：快脑或者叫小脑，是一个0.8亿参数、输出频率极高（200Hz）的模型，负责身体的控制，

“大脑”和“小脑”是放在一起联合训练的。且为了解决“大脑”7-9Hz，“小脑”200Hz的问题，小脑快于大脑的问题，他们还做了时间偏移训练，

举个例子，“大脑”学会生成一种更具前瞻性的指令。它不再只说“现在去抓杯子”，而是会说“根据我126毫秒前看到的情况，杯子正在以某种速度移动，所以“小脑”现在应该去它预测的位置抓取。

“小脑：也学会了如何理解和执行这些“基于略微过时信息”的指令，并与实时传感器数据融合，做出最佳决策。

依靠这套“被落后”的架构，Figure AI做了一个最具向往感、让我看到机器人行业黎明曙光的Demo——可以做收拾餐具、叠衣服等等家务。

我一直有种感觉，国内做辅助驾驶的车企，讲不清楚啥是辅助驾驶的VLA，其中一个原因是PPT上概念透支的太严重，现在事已经被过去讲了。

发布于广东