这次北京车展,卓驭发了个新东西,叫“原生多模态基础模型”。
它跟传统的端到端,本质区别在哪。把视频、文本、动作、语音、地图,所有模态在同一个框架里一起训练,这样的统一大模型,真的是未来么? http://t.cn/AXJLgrUE
发布于 上海
这次北京车展,卓驭发了个新东西,叫“原生多模态基础模型”。
它跟传统的端到端,本质区别在哪。把视频、文本、动作、语音、地图,所有模态在同一个框架里一起训练,这样的统一大模型,真的是未来么? http://t.cn/AXJLgrUE