听了下至简动力贾鹏对于具身智能的技术分享~
从传统双系统、到 VLA 端到端,再到世界模型,模型架构范式开始从对齐转到了统一(图一)
至简动力的技术架构分析:
-用 MoT 实现了多模态稀疏可扩展的基础模型(图二),通过多模态共享注意力融合视觉、语言与状态信息。MoT + Diffusion组合达到85%,显著优于MoE + Diffusion(60%)和其他基线方案
-用 LaST₀构建时空隐式世界模型,核心解决了视觉遗忘与长时序推理(图三),在隐空间中预测未来多步状态(T+1 到 T+h),并通过流匹配(Flow Matching)生成对应动作序列,实现时序推理,推理速度(FPS) 达到15.4Hz,在保持高精度的同时满足实时性要求
-用 TwinRL 突破传统 RL 的 OOD 与效率瓶颈,实现 20 分钟 100% 任务成功率(图九),我之前就有说过RL的能力上限取决于基座模型的能力
总结就是
这套技术栈从 底层优化(Jetson Thor)→ 核心架构(MoT)→ 世界模型(LaST₀)→ 长时序任务(Manual Generation)→ 强化学习(TwinRL)形成了完整的闭环,(MoT + LaST₀)是深度耦合的串行 - 并行混合架构,全部模块都是在本地部署。是真正的端侧自主智能体
#具身智能##微博新知#
发布于 浙江
