NPU编译器黑盒曝光

【NPU黑盒被捅破：为什么你的端侧AI总是不达预期】

最近一位开发者逆向工程了高通NPU编译器，揭开了移动端AI部署中那些“不能说的秘密”。简单来说，硬件厂商给你的说明书只是冰山一角，真正的深坑埋在编译器里。

最让人意外的发现是，编译器会在不告知开发者的情况下，为了跑通模型而悄悄降低权重精度。你以为在跑高精度模型，其实底层已被阉割。更离谱的是，即便两颗芯片的VTCM（向量紧耦合内存）参数一致，由于编译器内部调度逻辑的差异，DDR数据流量竟然能产生33倍的差距。这意味着同样的模型，在不同机型上的功耗和发热完全是开盲盒。

底层逻辑在于，NPU厂商（包括苹果、联发科）为了保证“能跑通”和“显得快”，在编译器层做了大量激进的自动化决策。它们更像是一个黑盒，开发者缺乏对底层Kernel的控制权。

给开发者的启发：不要迷信官方给出的硬件参数。如果追求极致性能和确定性，绕过官方编译器栈、直接通过Hexagon-MLIR或Triton编写Kernel，虽然路更难走，但那才是真正握住了硬件的命门。

datavorous.github.io/writing/qairt/

#人工智能##AI创造营##高通##嵌入式开发##NPU#

发布于北京