DS论文优化模型架构设计

DS在1月13日发布的论文，关于Engram架构。用人话来讲这篇论文的核心要点。通过优化模型架构设计（软件），实现硬件的： 1. 把GPU20%~25%算力，转移到CPU来计算 2. 把GPU20%~25%显存（HBM），转移到系统内存（GDDR/DDR/LPDDR）来计算 3. 这样做的结果，模型的精度几乎没有损失，甚至可能更好。CPU比GPU便宜得多，系统内存比显存便宜得多； GPU腾出20%~25%，意味着性能提升了20%~25%。CPU开销不大，系统内存额外消耗成本算增加5%~10%（HBM比DDR贵得多）。这套模型方案最关键的是，即可以用于云端AI模型推理，也可以用于端侧AI模型推理

发布于上海