继续聊上周在北京DACon的AI交流。
理想的同事也分享了理想同学车载Agent的整体架构。
和常见的纯PC端的Agent不太一样,车载场景的输入有语音和视觉,语音又要区分来自不同座位的乘客,要考虑的还挺多的。
这时候的车载Agent,其实更接近具身智能要做的事情。
变道、跟车、点杯咖啡,交个停车费,纯语音交互,替用户完成各种日常出行的需求,还是比较复杂的。
他们把主智能体拆分成两部分,相当于前端和后端。
前端的叫CUA,帮助用户理解图形界面并操作界面。
后端则是去执行一些任务,流行的MCP和A2A协议这些,该整上的都给整上了。
发布于 广东
