Lumine通用智能体开发方案

[AI]《Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds》W Tan, X Li, Y Fang, H Yao... [ByteDance Seed] (2025)

本文介绍了Lumine——首个面向复杂3D开放世界环境的通用智能体开发开源方案。Lumine通过统一感知、推理与动作的端到端视觉语言模型，实现了实时完成数小时长任务的能力。其核心特点包括：

1. 环境选择与挑战
以全球流行的3D开放世界游戏《原神》作为测试床，环境涵盖丰富多样的地形、复杂多样的玩法机制及长时任务，具备极强的开放性和现实感，极大挑战智能体的感知、推理和行动能力。

2. 模型设计
基于参数量7B的Qwen2-VL-7B-Base视觉语言预训练模型，Lumine以5Hz频率处理原始像素输入，结合历史上下文生成30Hz的键鼠操作指令。创新性地采用“混合思考”策略，按需生成内省式推理文本，有效减少不必要的计算延迟，兼顾效率与决策质量。

3. 动作空间建模
细粒度模拟键盘按键按下、释放、持续等动作和鼠标移动轨迹，覆盖游戏中复杂操作需求，保证动作的精确性与连贯性，克服了传统代理动作表达简化带来的局限。

4. 三阶段训练流程
- 预训练阶段：利用1731小时的人类游戏操作录像，重点学习多样化动作原语，培养基础视觉-动作映射能力。
- 指令跟随阶段：基于200小时注释的指令数据，强化语言与动作的对齐，培养语言指导下的短期任务执行能力。
- 推理阶段：通过15小时包含人类内心独白的推理标注数据，提升长时任务中复杂决策和规划的能力。

5. 上下文管理与实时推理
采用滑动窗口机制，保留最长20步历史视觉-动作对作为短期记忆，利用推理文本作为长期记忆，增强行为连贯性。结合动作分块、推理按需触发、多GPU张量并行、量化加速和猜测式解码，整体推理延迟降低25倍，实现实时响应。

6. 性能表现
- 在《原神》蒙德主线任务中，Lumine能以56分钟完成约1小时任务，效率超过新手玩家且接近专家水平。
- 展现了强大的指令跟随能力，简单任务成功率超过80%。
- 具备零样本跨游戏泛化能力，无需微调即可完成《风暴潮》首个100分钟任务及《崩坏：星穹铁道》五小时章节。
- 能够完成多样的任务类型，包括采集、战斗、NPC交互及解谜，涵盖短期和长时任务。

7. 局限与展望
当前模型在快速传送使用、迷你地图解读、主动治疗、长时记忆和高效战斗技巧上仍有不足。未来将探索更大规模数据训练、更先进的长期记忆机制、在线强化学习及更高效推理方案，以实现更强的自主性和泛化能力。

总结：Lumine代表了通用智能体在复杂3D开放世界环境中的重要进展，展示了结合大规模视觉语言预训练与多阶段任务特化训练的巨大潜力。其开源方案不仅推动了智能体研究，也为游戏开发、自动化测试和交互娱乐开启新篇章。

详细阅读请见：arxiv.org/abs/2511.08892

发布于北京