张哲学Lab
26-05-25 14:25 微博认证:微博VLOG博主 微博原创视频博主

看到了原始论文资料#华为半导体领域新突破# 让Claude解读下

何庭波上台做了个主旨演讲,题目叫「半导体新路径探索与实践」,然后正式发布了一个叫「韬定律」的东西。同时在ChinaXiv预印本平台上挂了完整论文。我把论文和PPT都看了一遍,觉得这件事值得认真聊。

📮先说背景。过去五十多年全球半导体行业靠的是摩尔定律——晶体管尺寸不断缩小,密度每两年翻一倍,性能跟着涨、成本跟着降。这条路走了半个世纪,现在到了3纳米、2纳米这个区间,物理极限开始顶头了。量子隧穿导致漏电功耗飙升,一座3纳米晶圆厂建厂成本200亿美元起步,全球能玩这个游戏的厂商缩到了三四家。更要命的是,到了最先进的制程节点,每颗晶体管的成本不再下降,有些甚至在涨——摩尔定律赖以成立的那个经济模型已经不成立了。

何庭波在论文里写了一句话我觉得特别准确——「The central question for the industry has therefore changed. It is no longer how much further can the transistor shrink? It is what should be scaled, and against what objective?」行业的核心问题变了,不再是晶体管还能缩多小,而是到底该缩什么、朝什么目标缩。

华为被制裁之后EUV光刻机买不到,7纳米以下的先进制程走不了。这不是秘密。所以华为这六年一直在想一件事——如果没办法把晶体管做得更小,有没有别的办法让芯片跑得更快?

📮韬定律给的答案是:有。不缩小尺寸,缩短时间。

具体说就是,传统摩尔定律的思路是「几何缩微」——把晶体管做小,单位面积塞更多晶体管。韬定律的思路是「时间缩微」——不死磕晶体管尺寸,而是系统性地压缩信号在芯片里的传播时间。何庭波提了一个核心公式,τ = f(τ_transistor, τ_circuit, τ_chip, τ_system),也就是说时间常数τ是从器件层、电路层、芯片层到系统层每一层累加的。你在任何一层压缩了时间,整体性能就上去了。

论文里说得更直白——回头看摩尔定律这五十年,它真正给用户带来的从来不是「更小的晶体管」,而是「更快的响应」。晶体管变小→开关更快→信号跑得更短→系统延迟更低。空间缩微只是压缩时间的手段。既然手段碰壁了,那就直接把时间本身作为优化目标。

📮实现这个目标的核心技术叫LogicFolding,逻辑折叠。

论文和PPT里讲得很清楚。传统芯片设计是把所有逻辑电路铺在一个平面上,信号从这头跑到那头,线越长延迟越大。LogicFolding是把关键路径上的逻辑电路垂直折叠成两层甚至更多层,通过超细间距的混合键合(Hybrid Bonding)把上下两层当成一块连续的布线空间来设计。信号走的物理距离短了,寄生RC降了,时钟频率就上去了。

PPT第5页那张LogicFolding的概念图特别直观——原来一条水平的时序逻辑链(FF→组合逻辑→FF),现在折叠成垂直方向,两个寄存器上下叠在一起,中间的组合逻辑通过垂直互连完成。关键路径的物理距离直接缩短了一个数量级。

PPT第4页给了Kirin 2026的实测数据,这些数字是论文里确认过的——

晶体管密度从155 MTr/mm²跳到238 MTr/mm²,单代提升53.5%。这个幅度过去需要三年的几何缩微才能做到。性能核能效提升41%,最高频率提升12.7%,回到3.1GHz。SRAM工作频率提升40%以上。时钟缓冲器数量减少50%,时钟偏差减少25%,线长减少30%。

这些全部是在制程不变的情况下做到的。不是靠新的光刻步骤,是靠把逻辑在三维空间里重新排列。

论文还给了一张路线图——Kirin 2026今年3.1GHz,2027年3.39GHz,2028年3.71GHz,2029年到4GHz。全部基于LogicFolding的持续演进,不需要换制程。到2031年晶体管密度向400+ MTr/mm²迈进,达到1.4纳米制程的同等水平。

📮但韬定律不只是手机芯片的事。论文后半部分讲的是AI系统,这部分我觉得比LogicFolding更有想象力。

何庭波提了一个问题——2.5D封装为什么会碰壁?她给了一个很漂亮的分析:在传统2.5D芯片里,逻辑Die在中间,HBM内存堆在边上,SerDes也在边上,供电从四周进来。计算能力按面积增长,是N²。但内存带宽、互连带宽、供电能力全部走边缘,按周长增长,是N。N²对N,计算越来越快但数据喂不进去,这就是扇出困境(Fan-out Dilemma)。

这个困境靠缩小制程解决不了。你把晶体管做到1纳米,边缘带宽还是N。唯一的办法是3D Folding——把原来挤在边缘的内存、光互连、供电全部搬到芯片的表面上,让它们也按N²增长。PPT第6页的昇腾路线图就是这个思路的落地:Ascend 910C(2025)→Ascend 950(2026)→960(2027)→970(2028)→980(2029),SuperPOD规模100到10000颗芯片,单Die面积超过800mm²,功耗做到GW级。

配合3D Folding的还有两个系统级技术。Unified Bus——统一总线,把传统AI集群里PCIe、NVLink、以太网、InfiniBand这堆协议栈全部换成一个协议,端到端远程访问延迟从数十微秒降到大约100纳秒,差不多500倍。Hi-ONE——近封装光引擎,单模块8Tb/s带宽,把SerDes的到达距离从100厘米缩到5厘米,再用光纤把芯片间距离从1米拉到100米。这两个技术加起来,让一个多机柜的AI集群在系统层面表现得像一颗芯片。

论文里的原话是:「A multi-rack AI cluster can behave as a single coherent machine.」何庭波内部给这个状态起了个名字叫System-as-One-Chip。到2035年硬件集成度预计提升100倍以上。

📮我看完论文和PPT之后的几个判断。

第一,这不是PPT学。381款量产芯片、Kirin 2026的实测数据、昇腾从910C到980的五代路线图——这些都是真的在出货或者已经在硅片上验证过的东西。何庭波在论文最后一段写了一句话:「This perspective is intended as both a report from the field and an invitation.」这是来自产线的报告,不是实验室的论文。

第二,韬定律真正厉害的地方不是LogicFolding本身,是它给了整个产业链一个共同的优化目标。过去工艺工程师优化晶体管尺寸,电路设计师优化时序,架构师优化流水线,系统工程师优化互连——每一层各管各的,最后拼出来的系统性能是个「残差」。韬定律说的是,所有人都应该在优化同一个东西——τ,时间常数。工艺、电路、芯片、系统四层用同一个单位(皮秒到秒)衡量进步。这是Dennard定律之后第一次有人给全栈提出一个统一的优化目标。

第三,N²对N的扇出困境那段分析,是我在论文里看到的最有价值的洞察。它解释了为什么靠缩小制程已经不够了——不是因为物理极限(虽然确实有极限),是因为拓扑结构就不对。你把Die面积做大、算力按N²涨,但数据从边缘进来只能按N涨,这个缺口是结构性的。3D Folding把边缘搬到表面是唯一的数学解。这个论证本身就值得单独写一篇文章。

当然也要冷静看。论文最后一节Open Challenges里自己列了好几个没解决的问题——EDA工具链还没跟上(现有EDA是为2D设计时代做的),层间工艺偏差需要新的时序签核流程,能量问题(τ缩短了但功耗可能上去),还有行业缺少针对τ的标准benchmark。这些都不是小问题。

何庭波今天说了一句话——「我们取得了一系列仅靠先进制程工艺难以取得的进步。」这句话翻译过来就是,我不是因为买不到EUV才走这条路的,是走了这条路之后发现,有些东西你光靠缩小制程反而做不到。

至于这话是不是自信过头了,秋天那颗Kirin 2026出来就知道了。3.1GHz、238 MTr/mm²、能效+41%——这几个数字如果手机端跑分实测能兑现,那韬定律就不只是一篇论文,是一条新赛道的起跑线。

发布于 广东