面壁智能端侧模型应用

面壁智能：开辟大模型上车的第二战场

摘自船长本人晓寒船长

只靠云端，汽车变不成机器人

智能汽车的终局是“汽车机器人”——它需要一个超级大脑，同时解决两件事：自己开车、和用户交互。

但在现有技术条件下，这两件事是分开做的。开车的事由辅助/自动驾驶系统负责；交互的事由智能座舱负责。

前者关乎安全，模型必须本地部署、本地计算，没有任何讨论余地。后者因为对实时性要求看似没那么严苛，成了云端大模型最先尝试的舞台。

但云端模型上车两年了，一个奇怪的现象浮出水面：上车的云端模型，至今依然只是一个对话助手。

你可以和它聊天、查资讯，但很多车连复杂导航都规划不了——“先去 A、途经 B、再帮我找一家附近的麦当劳”这种复合导航指令，很多车机都做不到。

更耐人寻味的是，即便能跑通复杂导航的车型，云端模型也无法直接接管车辆硬件。一句关空调、开车窗的指令下去，走的依然是传统规则式语音交互的链路——云端模型，并没有真正接入车控。

最近的某个明星车型，甚至干脆做了两个语音助手：云端大模型负责“聊天”，传统 NLU 模型负责“控车”，用户得自己决定呼叫哪一个助手。

云端模型迟迟接不进车控，根子在几个硬约束。

网络是第一道坎。地下车库、隧道、偏远路段，没信号或信号差，体验直接归零。延迟是第二道坎。哪怕 5G 信号满格，云端一来一回的耗时也远高于本地推理。

隐私与成本是第三道坎。要让汽车主动提供服务，传感器就需要7×24小时持续监测，数据上云既是隐私风险，也意味着Token账单暴涨。

于是行业陷入一个尴尬：明明已经有了非常聪明的大模型，却没法把这个聪明的大脑装进车里，让汽车具备实时感知、实时反应、实时交互的能力。

破局只有一条路——把模型放进本地，并且把它做得足够小，能装进车端芯片。

这就是大模型上车的第二战场。第一战场决定的是一台能不能快速外接一个聪明的大脑，第二战场决定的是一台车未来能不能真正长出大脑。

前者关乎当下的营销叙事，后者关乎汽车这个物种的进化方向。

端侧模型的能力，够用吗？

车端算力远低于电脑等消费电子产品，端侧大模型的参数量被压缩到几B甚至零点几B。

所以问题也随之而来：这种“小模型”，能力真的够用吗？答案藏在三件事里。

其一，端侧和云端模型本质上同源。

几亿、几十亿参数的端侧模型，依然是基于Transformer架构的VLM/LLM模型，和云端大模型在技术本质上是一样的。它同样具备复杂意图理解、自然语言交互、看图说话的能力。

即便是参数量较小的大模型，相比目前语音助手普遍使用的NLU这种传统规则模型，能力依然是碾压性的。

其二，大模型的能力密度在快速提升。

Scaling Law 推动云端模型变得越来越聪明，这件事众所周知。但鲜有人留意另一条曲线——密度定律（如下图）。

清华大学的研究团队发现，从2023年起，主流开源大模型在特定基准测试中呈现出能力密度倍增现象：达到同等性能所需的有效参数量，每3.5个月减半一次。

换句话说，今天某个特定任务可能需要100亿参数才能做好，三个多月之后只需要 50亿，再三个多月之后只需要25亿，那一年之后呢？

其三，汽车场景对模型能力的需求是有阈值的。

云端大模型的能力是越高越好——人们要用它做科研、推理、复杂创作，所以是一场无上限的攀登。

但车端不是。车端的核心任务无非是路径规划、媒体搜索、车控指令（车辆硬件本身就是有限的）。所以车端对能力的需求带着明确阈值：跨过那条线，就够用了。

三件事叠在一起，结论就很清晰：

端侧模型的能力密度在快速增长，车端场景对能力的需求又有上限——只要端侧越过那条阈值线，就足以支撑一台车的日常智能。至于偶尔需要的深度推理或联网搜索，再交给云端就好。

所以第二战场上要打的，并不是“能不能做出小模型”的问题，而是一场模型在车端场景上的能力密度之战。

Scaling Law决定了云端的天花板有多高，密度定律决定了端侧的入场时间有多近。谁先让端侧模型越过那条阈值线，谁就拿到了"给汽车装上大脑"的入场券。

端侧模型上车，三个真实样本

原理讲完，问题就来了：小参数量的端侧模型，在车里到底能干什么？有没有真正落地的案例？

在前几天的北京车展上，面壁智能展示出了多个实战样本（下图为面壁智能展位）。这里聊三个最具代表性的。

第一个，吉利银河 M9 上量产的智能车控。

基于面壁的端侧模型，面壁与吉利团队联合把“主动服务”做成了实打实的功能：车辆进隧道后会自动关窗，快到收费站的时候会自动开窗。

动作看似简单，但背后需要持续监控车外环境、并做出实时反应。这种“持续在线、低延迟”的特性，放在云端，Token 成本与延迟都根本撑不住，只有本地能跑通。

第二个，今年北京车展上发布的事故处理智能体。

车辆发生事故的瞬间，端侧模型第一时间感知到，立刻通过语音和文字安抚用户、给出处理指引。用户下车后按指引在 App 上拍照上传，云端模型接力推理，提供责任判定、损失估算，甚至直接帮用户预约 4S 店维修。

这是一个典型的“端云协同”样本：端侧负责贴身、即时、不能等的部分；云端负责重推理、重知识的部分。两者各司其职，而不是相互替代。

第三个，也是最具想象力的——MiniCPM-o 4.5全双工全模态模型的上车。

ChatGPT和豆包的“打电话”、“视频通话”模式，就是所谓的全双工全模态体验：模型一边看画面、一边说话，用户能随时打断、自然切换话题。但此前，这些能力一直只长在云端。

面壁的MiniCPM-o 4.5，把这套能力压进了仅9B参数的端侧模型里。

这种模型上车之后，能做到一件极具颠覆感的事：无需唤醒，实时在线，主动服务。

你随口一句“这路真堵啊”，模型听到、并看到前方拥堵，会主动解释原因并建议换路；你带孩子出行，孩子在后排兴奋地喊“妈妈快看，前面的风景好漂亮”，车内的摄像头会立刻捕捉画面，把那一刻拍下来——一个随车摄影师，且不需要把数据传出车外。

三个案例叠加，就勾勒出了端侧模型在车端的能力坐标——能控车、能实时感知车内外的情况进，也能主动提供服务。

并且第二个案例很有意思，它证明的不是“模型让车更好用”，而是模型可以走进物理世界，直接替用户处理驾驶中真实发生的事。从优化用车体验到介入现实问题，这是一个质变。

案例三也是质变。当全双工全模态的能力，再叠加车控、实时感知与物理世界介入——汽车就已经在向"机器人"演化了。

距离电影里的大黄蜂当然还远，但质变的临界点已经越过。剩下的只是攒量的过程：模型每多覆盖一个场景、多解决一类问题，这辆车就朝大黄蜂多走一步。

端侧是大脑，云端是外脑

从行业目前的发展态势看，端云协同是一个比较主流且被广泛认可的方向。但是，即使是端云协同，依然存在一个根本性的问题：

用户的一个指令进来后，到底是走云端还是走车端？这就要求必须有一个模型来当裁判。

这个能当裁判的模型，实际上就是整车的大脑。

我认为，这个大脑只能是端侧。

因为智能汽车的终局是汽车机器人。既然是机器人，就意味着 7×24 小时对物理世界的实时感知与反应——这件事，云端做不到。它受制于网络、延迟、隐私和成本，没法常驻在线。

正如变形金刚里的大黄蜂，它不可能全程靠网线和人交互、和威震天打架。

这里还有一个非常反直觉的点：大脑不需要最聪明，只要足够聪明就行（也就是前面说的阈值问题）。

人类就是这种模式的典型案例。

每个人不可能在所有领域都专业，遇到自己解决不了的问题（比如生病了），会去找专家帮忙。车端大脑也一样——它解决不了的问题，直接去找云端模型帮忙就好。

所以谁是大脑，逻辑上很清楚了。

至此，剩下的问题只剩一个：车端算力，够不够部署一个足够聪明的大脑？

如果以静止的眼光看，今天已经量产的高通8155、8295这种座舱芯片，确实算力紧张。

但用发展的眼光看：一大堆算力爆炸的芯片在最近一年内就会陆续量产，AI Box这种外挂算力设备也即将上车。

苹果的顶配M3 Ultra已经能本地部署满血版DeepSeek R1（671B参数），往后车端芯片或AI Box的性能会快速逼近消费电子产品。

小鹏自研的图灵芯片，单芯片750+TOPS算力，既上辅助驾驶、也上座舱——本质就是为端侧大模型铺路，其旗舰车型总算力已经达到3000Tops（如下图）。

特斯拉下一代AI 5芯片被外媒爆出算力高达1000～2000TOPS，大概率也是辅助驾驶+座舱共用。

瑞萨X5H、MTK C-X1这一批新一代座舱 SoC 同样在跃迁——C-X1 集成英伟达 Blackwell GPU加专用NPU，综合算力400TOPS；X5H更激进，自带400TOPS 之外还预留Chiplet（UCIe）接口，外挂NPU可以实现AI算力要多少有多少。

到2027年前后，车端座舱可调用的算力、内存带宽与容量都将进入新的量级。届时在车上跑一个几十B、甚至上百B参数的模型，不再是工程难题。

再叠加密度定律的曲线——那个时点，端侧模型的聪明程度，大概率已经稳稳越过汽车场景的阈值。

端侧承担实时感知与即时决策，是汽车的“大脑”；云端补足深度推理与全网知识，是汽车的“外脑”。前者常驻、贴身、不能下线；后者随用随调、按需介入。

两者主从清晰，缺一不可。

汽车真正长出大脑的那一刻，正是智能座舱对AI能力的需求与端侧模型的密度增长这两条曲线交汇之处——而这个交汇点，已经清晰可见地落在2027年前后。

第二战场，谁在领跑？

趋势讲清楚之后，下一个问题随之而来：这个第二战场上，谁已经跑在前面？

从这次北京车展看，面壁智能在汽车端侧模型这条赛道上，已经显著拉开了身位。

这个赛道有三道关键壁垒。

其一，小参数下保住模型质量的工程能力。

大参数模型靠堆数据和参数拿效果，小参数模型靠不了——参数越小，训练数据配比、训练流程设计、推理优化等每一步都更敏感。

这类似于制造业上的一个反直觉现象：把一个产品做小，反而比做大更难，因为约束条件更多，并且小到一定程度难度是指数级上升。

面壁在端侧赛道上深耕多年，密度定律对他们而言不是一句口号，而是从大量训练实验里蹚出来的方法论，（上图展示了面壁的模型能力密度在不断上涨）。这一层的工程经验，新入局者短时间补不上。

其二，端侧模型与车端工程系统的匹配能力。

模型能在电脑上跑是一回事，能在不同型号的车规级SoC上稳定跑、和车控系统对接、在各种边界场景下不出错，是完全另一回事。

面壁已经在吉利银河 M9、马自达 EZ-60 上完成量产，并陆续与红旗、上汽大众等多个车型展开合作。

其端侧模型可以部署在高通、MTK等多个芯片平台上（上图为高通芯片平台的控制器）。

2026年，面壁方面预计有30万台车将部署其端侧模型。这个数字背后，是已经被实车验证过的整套车规与量产流程——这是任何端侧模型公司想进入汽车行业都必须先解决的题，而面壁已经解决了。

其三，车端细分场景的定义和理解能力。

这一点就是很多行业的领军企业都喜欢说的Know how。它是最容易被忽视，但也是最深的壁垒。

汽车不是手机，不是一个标准化的应用环境。进隧道、过收费站、堵车、碰撞、儿童独自在后排、驾驶员疲劳、停车找位、副驾情绪变化……每一个场景都需要独立的端侧能力定义、数据采集、模型微调、规则配套。

面壁在与多家车企的合作里，已经积累出一个庞大的车端场景库——这些场景不是面壁独自定义的，而是和车企共创、被实车反复验证过的。这种场景资产，新入局者花钱买不来，只能用时间和合作项目一点点攒出来。

回到"第二战场"这个判断：它不只是一个被忽视的产业方向，更是一条有真实门槛、需要长期主义的赛道。

模型能力、车规工程、场景资产，三道门槛环环相扣，每一道都需要数年时间和真金白银砸出来。

当所有人都盯着第一战场的热闹时，面壁智能选择了在一条更长、更安静、但也更接近终局的路上深耕。

今天他们做的事情看起来还像配角——隧道开窗、事故处理、车内主动服务——但当汽车真正成为机器人那一天，这些配角，就是那辆机器人的大脑。

发布于河南