华为发布韬定律

看到了原始论文资料#华为半导体领域新突破# 让Claude解读下

何庭波上台做了个主旨演讲，题目叫「半导体新路径探索与实践」，然后正式发布了一个叫「韬定律」的东西。同时在ChinaXiv预印本平台上挂了完整论文。我把论文和PPT都看了一遍，觉得这件事值得认真聊。
⠀
📮先说背景。过去五十多年全球半导体行业靠的是摩尔定律——晶体管尺寸不断缩小，密度每两年翻一倍，性能跟着涨、成本跟着降。这条路走了半个世纪，现在到了3纳米、2纳米这个区间，物理极限开始顶头了。量子隧穿导致漏电功耗飙升，一座3纳米晶圆厂建厂成本200亿美元起步，全球能玩这个游戏的厂商缩到了三四家。更要命的是，到了最先进的制程节点，每颗晶体管的成本不再下降，有些甚至在涨——摩尔定律赖以成立的那个经济模型已经不成立了。
⠀
何庭波在论文里写了一句话我觉得特别准确——「The central question for the industry has therefore changed. It is no longer how much further can the transistor shrink? It is what should be scaled, and against what objective?」行业的核心问题变了，不再是晶体管还能缩多小，而是到底该缩什么、朝什么目标缩。
⠀
华为被制裁之后EUV光刻机买不到，7纳米以下的先进制程走不了。这不是秘密。所以华为这六年一直在想一件事——如果没办法把晶体管做得更小，有没有别的办法让芯片跑得更快？
⠀
📮韬定律给的答案是：有。不缩小尺寸，缩短时间。
⠀
具体说就是，传统摩尔定律的思路是「几何缩微」——把晶体管做小，单位面积塞更多晶体管。韬定律的思路是「时间缩微」——不死磕晶体管尺寸，而是系统性地压缩信号在芯片里的传播时间。何庭波提了一个核心公式，τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)，也就是说时间常数τ是从器件层、电路层、芯片层到系统层每一层累加的。你在任何一层压缩了时间，整体性能就上去了。
⠀
论文里说得更直白——回头看摩尔定律这五十年，它真正给用户带来的从来不是「更小的晶体管」，而是「更快的响应」。晶体管变小→开关更快→信号跑得更短→系统延迟更低。空间缩微只是压缩时间的手段。既然手段碰壁了，那就直接把时间本身作为优化目标。
⠀
📮实现这个目标的核心技术叫LogicFolding，逻辑折叠。
⠀
论文和PPT里讲得很清楚。传统芯片设计是把所有逻辑电路铺在一个平面上，信号从这头跑到那头，线越长延迟越大。LogicFolding是把关键路径上的逻辑电路垂直折叠成两层甚至更多层，通过超细间距的混合键合（Hybrid Bonding）把上下两层当成一块连续的布线空间来设计。信号走的物理距离短了，寄生RC降了，时钟频率就上去了。
⠀
PPT第5页那张LogicFolding的概念图特别直观——原来一条水平的时序逻辑链（FF→组合逻辑→FF），现在折叠成垂直方向，两个寄存器上下叠在一起，中间的组合逻辑通过垂直互连完成。关键路径的物理距离直接缩短了一个数量级。
⠀
PPT第4页给了Kirin 2026的实测数据，这些数字是论文里确认过的——
⠀
晶体管密度从155 MTr/mm²跳到238 MTr/mm²，单代提升53.5%。这个幅度过去需要三年的几何缩微才能做到。性能核能效提升41%，最高频率提升12.7%，回到3.1GHz。SRAM工作频率提升40%以上。时钟缓冲器数量减少50%，时钟偏差减少25%，线长减少30%。
⠀
这些全部是在制程不变的情况下做到的。不是靠新的光刻步骤，是靠把逻辑在三维空间里重新排列。
⠀
论文还给了一张路线图——Kirin 2026今年3.1GHz，2027年3.39GHz，2028年3.71GHz，2029年到4GHz。全部基于LogicFolding的持续演进，不需要换制程。到2031年晶体管密度向400+ MTr/mm²迈进，达到1.4纳米制程的同等水平。
⠀
📮但韬定律不只是手机芯片的事。论文后半部分讲的是AI系统，这部分我觉得比LogicFolding更有想象力。
⠀
何庭波提了一个问题——2.5D封装为什么会碰壁？她给了一个很漂亮的分析：在传统2.5D芯片里，逻辑Die在中间，HBM内存堆在边上，SerDes也在边上，供电从四周进来。计算能力按面积增长，是N²。但内存带宽、互连带宽、供电能力全部走边缘，按周长增长，是N。N²对N，计算越来越快但数据喂不进去，这就是扇出困境（Fan-out Dilemma）。
⠀
这个困境靠缩小制程解决不了。你把晶体管做到1纳米，边缘带宽还是N。唯一的办法是3D Folding——把原来挤在边缘的内存、光互连、供电全部搬到芯片的表面上，让它们也按N²增长。PPT第6页的昇腾路线图就是这个思路的落地：Ascend 910C(2025)→Ascend 950(2026)→960(2027)→970(2028)→980(2029)，SuperPOD规模100到10000颗芯片，单Die面积超过800mm²，功耗做到GW级。
⠀
配合3D Folding的还有两个系统级技术。Unified Bus——统一总线，把传统AI集群里PCIe、NVLink、以太网、InfiniBand这堆协议栈全部换成一个协议，端到端远程访问延迟从数十微秒降到大约100纳秒，差不多500倍。Hi-ONE——近封装光引擎，单模块8Tb/s带宽，把SerDes的到达距离从100厘米缩到5厘米，再用光纤把芯片间距离从1米拉到100米。这两个技术加起来，让一个多机柜的AI集群在系统层面表现得像一颗芯片。
⠀
论文里的原话是：「A multi-rack AI cluster can behave as a single coherent machine.」何庭波内部给这个状态起了个名字叫System-as-One-Chip。到2035年硬件集成度预计提升100倍以上。
⠀
📮我看完论文和PPT之后的几个判断。
⠀
第一，这不是PPT学。381款量产芯片、Kirin 2026的实测数据、昇腾从910C到980的五代路线图——这些都是真的在出货或者已经在硅片上验证过的东西。何庭波在论文最后一段写了一句话：「This perspective is intended as both a report from the field and an invitation.」这是来自产线的报告，不是实验室的论文。
⠀
第二，韬定律真正厉害的地方不是LogicFolding本身，是它给了整个产业链一个共同的优化目标。过去工艺工程师优化晶体管尺寸，电路设计师优化时序，架构师优化流水线，系统工程师优化互连——每一层各管各的，最后拼出来的系统性能是个「残差」。韬定律说的是，所有人都应该在优化同一个东西——τ，时间常数。工艺、电路、芯片、系统四层用同一个单位（皮秒到秒）衡量进步。这是Dennard定律之后第一次有人给全栈提出一个统一的优化目标。
⠀
第三，N²对N的扇出困境那段分析，是我在论文里看到的最有价值的洞察。它解释了为什么靠缩小制程已经不够了——不是因为物理极限（虽然确实有极限），是因为拓扑结构就不对。你把Die面积做大、算力按N²涨，但数据从边缘进来只能按N涨，这个缺口是结构性的。3D Folding把边缘搬到表面是唯一的数学解。这个论证本身就值得单独写一篇文章。
⠀
当然也要冷静看。论文最后一节Open Challenges里自己列了好几个没解决的问题——EDA工具链还没跟上（现有EDA是为2D设计时代做的），层间工艺偏差需要新的时序签核流程，能量问题（τ缩短了但功耗可能上去），还有行业缺少针对τ的标准benchmark。这些都不是小问题。
⠀
何庭波今天说了一句话——「我们取得了一系列仅靠先进制程工艺难以取得的进步。」这句话翻译过来就是，我不是因为买不到EUV才走这条路的，是走了这条路之后发现，有些东西你光靠缩小制程反而做不到。
⠀
至于这话是不是自信过头了，秋天那颗Kirin 2026出来就知道了。3.1GHz、238 MTr/mm²、能效+41%——这几个数字如果手机端跑分实测能兑现，那韬定律就不只是一篇论文，是一条新赛道的起跑线。

发布于广东