至简动力技术分享

听了下至简动力贾鹏对于具身智能的技术分享~

从传统双系统、到 VLA 端到端，再到世界模型，模型架构范式开始从对齐转到了统一（图一）
至简动力的技术架构分析：
-用 MoT 实现了多模态稀疏可扩展的基础模型（图二），通过多模态共享注意力融合视觉、语言与状态信息。MoT + Diffusion组合达到85%，显著优于MoE + Diffusion（60%）和其他基线方案
-用 LaST₀构建时空隐式世界模型，核心解决了视觉遗忘与长时序推理（图三），在隐空间中预测未来多步状态（T+1 到 T+h），并通过流匹配（Flow Matching）生成对应动作序列，实现时序推理，推理速度（FPS）达到15.4Hz，在保持高精度的同时满足实时性要求
-用 TwinRL 突破传统 RL 的 OOD 与效率瓶颈，实现 20 分钟 100% 任务成功率（图九），我之前就有说过RL的能力上限取决于基座模型的能力

总结就是
这套技术栈从底层优化（Jetson Thor）→ 核心架构（MoT）→ 世界模型（LaST₀）→ 长时序任务（Manual Generation）→ 强化学习（TwinRL）形成了完整的闭环，（MoT + LaST₀）是深度耦合的串行 - 并行混合架构，全部模块都是在本地部署。是真正的端侧自主智能体
#具身智能##微博新知#

发布于浙江