继续聊上周在北京DACon的AI交流。理想的同事也分享了理想同学车载Agent的整体架构。和常见的纯PC端的Agent不太一样，车载场景的输入有语音和视觉，语音又要区分来自不同座位的乘客，要考虑的还挺多的。这时候的车载Agent，其实更接近具身智能要做的事情。变道、跟车、点杯咖啡，交个停车费，纯语音

继续聊上周在北京DACon的AI交流。
理想的同事也分享了理想同学车载Agent的整体架构。
和常见的纯PC端的Agent不太一样，车载场景的输入有语音和视觉，语音又要区分来自不同座位的乘客，要考虑的还挺多的。
这时候的车载Agent，其实更接近具身智能要做的事情。
变道、跟车、点杯咖啡，交个停车费，纯语音交互，替用户完成各种日常出行的需求，还是比较复杂的。
他们把主智能体拆分成两部分，相当于前端和后端。
前端的叫CUA，帮助用户理解图形界面并操作界面。
后端则是去执行一些任务，流行的MCP和A2A协议这些，该整上的都给整上了。

发布于广东