刚看完这次Las Vegas的CES展会,太激动了,迫不及待跟大伙聊两句。
因为我感觉这里面藏着一个很强的行业信号。
在吉利银河M9的展台前,排起了长队,很多海外观众和媒体上车第一件事是直接跟车上的智能助手聊几轮。
聊完后大伙都在惊叹那个语音大模型交互体验。
官方介绍是用了国内的大模型公司阶跃星辰的端到端语音模型。
这种墙外开花的热度,其实早已在墙内香了。
这台车在国内上市才4个月,销量就快接近4万台。
在国内这么卷的新能源车市场,这个成绩意味着消费者体验是真的好。
很多车主反馈,现在的语音交互,相比蔚小理那擅长车机控制的灵活,它的交流“更像人”。
自己家小孩子特别爱跟它聊天,因为它是一个能接梗、有情绪的伙伴。
那为什么能做到这一点?
核心在于端到端语音大模型,让车机变得更像活人了。
这项语音技术反应更快,音色可定制、有情商、有记忆,这种体验,正在促使更多车企用大模型升级座舱。
并且我认为这台车的意义早已超越了单一车型。
因为它是全球第一台搭载端到端语音大模型的量产车,也是国产大模型第一次借着量产车走向海外。
不仅国内量产卖得动,现在在CES完成曝光后,海外市场推进动作也在展开。
这意味着终端语音大模型的商业化,已经从概念走向了规模化落地。
众所周知,Step-Audio 在技术上是第一梯队,难得的是,这波终端商业化,它也是布局最早、走得最快的那一个。
为什么我觉得这次CES展会,这样的应用值得你认真关注下?
我觉得大致能分成以下五点。
第一,语音开始承担理解到执行的主链路。
过去很多座舱语音更像遥控器,你说一句它做一件,做不到就卡住。
现在竞争焦点在往车载 Agent 入口迁移,语音负责把一句话拆成意图,补全上下文,调用能力,执行任务。
当语音承担理解、推理、执行的闭环编排,座舱智能的可用性与上限就被抬起来了。
第二,端到端语音能力在车里特别占优势。
它能理解你的情绪,安慰你、跟你开玩笑,交流不再像对着机器念口令。
并且它不是一套固定腔调,多种声音风格可切换,语速、风格、情绪可调,真正实现个性化陪伴。
还有它的记忆能力,让它能落到很细的日常习惯上。
在你授权下,它会记住你怎么称呼自己和身边的人,会记住你的稳定偏好,比如常用的导航应用、常走的通勤路线。
它会记住你的生活半径与常去地点,比如健身房、公司、家。
并且它能在连续多轮对话里保持上下文不断线,你不用重复交代背景。
第三,规模化商用的趋势线正在变清晰。
很多人以前把语音当成锦上添花。
但真正的变化在于语音大模型开始具备规模化落地的三要素:体验足够明显,成本开始可控,任务链路开始闭环。
当这种能力在全球最大、最具影响力的消费电子展上完成集中曝光,它就会变成一个行业信号。
第四,商业化从一次性成交变成持续增长曲线。
当车内有一个更懂你的 Agent,交易逻辑会被改写。
以前买车,买的是发动机和沙发,付款完成后交易基本结束。
未来买车更像是在使用一个可进化的平台,交易从交付那一刻开始延伸。
车载 Agent 能把你的需求转化为可执行服务,比如帮你找到合适的餐厅并完成预订,帮你规划周末路线。
第五,庞大的生态会被催生出来。
当车成为最懂你的私人助理,咖啡店、餐厅等内容与生活服务都会想接入这个入口。
行业里很可能会出现类似美团那样的关键角色,负责把服务供给、履约、支付、评价体系接起来。
而阶跃的野心的是搭建这个生态的操作系统与底层技术支持。
把以上几条串起来,你会发现 M9 在 CES 的热度更像是一个信号。
汽车座舱的体验26年恐怕会被彻底改写,大模型正在牵引着它的进化。
谁能更早把模型布局在这里,谁就会让智能座舱从概念走向规模化。
