新麒麟的架构针对端侧 AI 及边缘计算的低延迟、高能效需求，在内存子系统和近内存计算层面进行了多维度优化。以下以 AI 推理场景中连续数据块读取的加速为例，阐述其关键技术改进：1. 可配置列突发传输（Configurable Column Burst）传统 DRAM 的 Burst Mode 仅支持固定长度的连续列传输，而新麒麟通

新麒麟的架构针对端侧 AI 及边缘计算的低延迟、高能效需求，在内存子系统和近内存计算层面进行了多维度优化。以下以 AI 推理场景中连续数据块读取的加速为例，阐述其关键技术改进：
1. 可配置列突发传输（Configurable Column Burst）
传统 DRAM 的 Burst Mode 仅支持固定长度的连续列传输，而新麒麟通过扩展指令集支持动态配置起始列地址（C0）和传输列数（N）。内存控制器单条指令即可触发从 C0 开始的 N 列数据流式传输，相较于传统逐列读取模式，指令数减少至 1/N，显著降低指令总线负载。该机制尤其适用于 Transformer 模型中注意力权重的连续读取场景。
2. 自适应模式寄存器（Adaptive Mode Register）
新增模式寄存器字段（MR4）支持动态配置数据读取策略：
全行模式（MR4=0x0）：默认激活整行数据（Row Buffer），适用于全连接层权重读取。
分块模式（MR4=0x1）：根据预设的 {C0, N} 读取局部数据块，适配卷积核滑动窗口访问。
通过预配置模式寄存器，可减少指令中的参数传递开销，提升有效带宽利用率。
3. Bank 级并行优化（Bank-Level Parallelism）
结合可配置列突发传输，新麒麟支持多 Bank 并行数据预取（Multi-Bank Prefetching）。通过硬件调度器将连续数据请求映射至不同 Bank，结合计算单元的流水线设计，可实现峰值带宽利用率提升 40%（仿真数据）。
4. 近内存计算集成（Near-Memory Computing）
在存储层集成轻量化计算单元（如 INT8 乘法器），支持权重数据从 Bank 直接输入计算单元，减少通过 SoC 总线搬运数据的延迟。该设计在思路上类似三星 HBM-PIM 的存算一体，但针对端侧场景优化了计算单元粒度与能效比。

当前计算卡如华为昇腾 910B 通过 3D 堆叠封装实现了高带宽内存访问，NVIDIA H100 的 HBM3 进一步将带宽提升至 3TB/s。新麒麟在一定程度上借鉴了计算卡的思路，通过指令集与存储架构协同设计，降低端侧场景的指令开销与能耗。得益于新麒麟架构层面的提升，预计 Mate 80 系列将在端侧 AI （涉及文本和图像）方面有新的突破。 http://t.cn/RI1ENXb

发布于广东