Jerrold_Tech 25-02-26 18:48
微博认证:数码博主 微博原创视频博主

新麒麟的架构针对端侧 AI 及边缘计算的低延迟、高能效需求,在内存子系统和近内存计算层面进行了多维度优化。以下以 AI 推理场景中连续数据块读取的加速为例,阐述其关键技术改进:
1. 可配置列突发传输(Configurable Column Burst)
传统 DRAM 的 Burst Mode 仅支持固定长度的连续列传输,而新麒麟通过扩展指令集支持动态配置起始列地址(C0)和传输列数(N)。内存控制器单条指令即可触发从 C0 开始的 N 列数据流式传输,相较于传统逐列读取模式,指令数减少至 1/N,显著降低指令总线负载。该机制尤其适用于 Transformer 模型中注意力权重的连续读取场景。
2. 自适应模式寄存器(Adaptive Mode Register)
新增模式寄存器字段(MR4)支持动态配置数据读取策略:
全行模式(MR4=0x0):默认激活整行数据(Row Buffer),适用于全连接层权重读取。
分块模式(MR4=0x1):根据预设的 {C0, N} 读取局部数据块,适配卷积核滑动窗口访问。
通过预配置模式寄存器,可减少指令中的参数传递开销,提升有效带宽利用率。
3. Bank 级并行优化(Bank-Level Parallelism)
结合可配置列突发传输,新麒麟支持多 Bank 并行数据预取(Multi-Bank Prefetching)。通过硬件调度器将连续数据请求映射至不同 Bank,结合计算单元的流水线设计,可实现峰值带宽利用率提升 40%(仿真数据)。
4. 近内存计算集成(Near-Memory Computing)
在存储层集成轻量化计算单元(如 INT8 乘法器),支持权重数据从 Bank 直接输入计算单元,减少通过 SoC 总线搬运数据的延迟。该设计在思路上类似三星 HBM-PIM 的存算一体,但针对端侧场景优化了计算单元粒度与能效比。

当前计算卡如华为昇腾 910B 通过 3D 堆叠封装实现了高带宽内存访问,NVIDIA H100 的 HBM3 进一步将带宽提升至 3TB/s。新麒麟在一定程度上借鉴了计算卡的思路,通过指令集与存储架构协同设计,降低端侧场景的指令开销与能耗。得益于新麒麟架构层面的提升,预计 Mate 80 系列将在端侧 AI (涉及文本和图像)方面有新的突破。 http://t.cn/RI1ENXb

发布于 广东