Figure AI的Helix是一个VLA大模型,从架构上来看,这就是一个已经在国内辅助驾驶上“应用”一两年、“被落后”的「快慢脑」方案,
System2:慢脑或者叫大脑,是一个70亿参数VLM模型,负责提供认知,且想清楚一件事情应该怎么干,指挥小脑,
System1 :快脑或者叫小脑,是一个0.8亿参数、输出频率极高(200Hz)的模型,负责身体的控制,
“大脑”和“小脑”是放在一起联合训练的。且为了解决“大脑”7-9Hz,“小脑”200Hz的问题,小脑快于大脑的问题, 他们还做了时间偏移训练,
举个例子,“大脑”学会生成一种更具前瞻性的指令。它不再只说“现在去抓杯子”,而是会说“根据我126毫秒前看到的情况,杯子正在以某种速度移动,所以“小脑”现在应该去它预测的位置抓取。
“小脑:也学会了如何理解和执行这些“基于略微过时信息”的指令,并与实时传感器数据融合,做出最佳决策。
依靠这套“被落后”的架构,Figure AI做了一个最具向往感、让我看到机器人行业黎明曙光的Demo——可以做收拾餐具、叠衣服等等家务。
我一直有种感觉,国内做辅助驾驶的车企,讲不清楚啥是辅助驾驶的VLA,其中一个原因是PPT上概念透支的太严重,现在事已经被过去讲了。
发布于 广东
