DS在1月13日发布的论文,关于Engram架构。用人话来讲这篇论文的核心要点。通过优化模型架构设计(软件),实现硬件的: 1. 把GPU20%~25%算力,转移到CPU来计算 2. 把GPU20%~25%显存(HBM),转移到系统内存(GDDR/DDR/LPDDR)来计算 3. 这样做的结果,模型的精度几乎没有损失,甚至可能更好。CPU比GPU便宜得多,系统内存比显存便宜得多; GPU腾出20%~25%,意味着性能提升了20%~25%。CPU开销不大,系统内存额外消耗成本算增加5%~10%(HBM比DDR贵得多)。这套模型方案最关键的是,即可以用于云端AI模型推理,也可以用于端侧AI模型推理
发布于 上海
