华为那个半导体论文,其实我倒是觉得不是工艺手册,倒是更像是白皮书吧。
一开始说是半导体行业的目标应该从晶体管密度转向端到端(虽然我不想用这个词,但是从晶体管到协议栈确实是端到端)延迟。这部分不太好评价,因为华为缺少最先进的工艺,也没准那天工艺真突破了呢。降低延迟肯定是对的,但实际中的收益有无提高逻辑门数量或密度高,不好说,谨慎乐观吧,我感觉目前来说大部分人对等效逻辑门数量的需求没那么高。
之后是LogicFolding,这部分确实有些像3D堆叠,但是和HBM不同,这里专门提到了时序问题,这个好像之前考虑的的确不多,根据时序进行逻辑门的优化布局应该是有增益的,把一些逻辑门按照时序进行紧凑的布局可以降低延迟,但是仅适用于有明确时序的任务,比如基带,通用处理器和GPGPU不好说。不清楚处理乱序执行的性能如何。华为认为3D堆叠的另一个好处是,IO和PSU可以有更多的边沿进行处理,因为以前HBM的时候供电和其他IO还是只能从下面负责计算Tile走的。
另一部分的内容可能大部分人比较熟悉,就是架构内的延迟优化(总线,光链接)和跨层优化。按论文的内容,系统中只会有一个总线,所有的设备都在总线上通信,使用相同的协议,再也没有什么NVLink/PCIe/eCPRI了,难,很难,非常难。光链接就是扩大多芯片系统里面互联范围和带宽,但是光的问题是光电转换延迟和能量都不好看,谨慎看好。跨层优化主要是针对协议栈的,可能包括IETF和3GPP的协议栈,这部分已经比较确定有增益了,问题不大。
看完感觉最大的担忧是一是难度,二是通用性,三是那个unified BUS到底跑什么协议能兼容所有的设备……[允悲]
发布于 北京
