哪家中国芯片公司能“吃下”大模型?(4)
摘自雷峰网 ,作者包永刚
专用和通用融合才是大模型的最优解
“一个完美的AI大模型处理器应该是用T4 GPU的计算核心,用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的真实需求。
而兼具通用性和专用性的混合DSA芯片才是满足大模型需求的理想产品,未来AI芯片公司的比拼是混合DSA。
6年前,英伟达的Volta架构首次为深度学习加入了Tensor Core,此后的每代架构都不断优化Tensor Core,增强GPU的AI性能。
2022年发布的H100 GPU,又增加了软硬结合的Transformer Engine,目的是加速AI大模型计算。
Tensor Core和Transformer引擎,都是为AI工作流设计的专用计算单元。也就是说,英伟达早就在“通用”的GPGPU上增加了“专用”的AI加速单元,这种融合设计兼顾了GPGPU的通用性,又能发挥专用加速单元的能效比优势,更像是大模型的最优解。
这里有一个会让人费解的问题,既然AI模型都稳定了,为什么不是设计一个Transformer专用的加速芯片,还需要通用性?
“算法的类别虽然从几千种变成几百种,但还在不断优化,只有具备足够的通用性,才能最大化芯片的价值。”宇阳解释。
“从芯片的设计规律看,设计一个Transformer专用加速芯片,去‘赌’未来三至五年内不会有新的模型结构颠覆性的替换掉Transformer,也是一个非常疯狂的想法。”浩然补充。
那混合DSA的路线明确之后,各家芯片的差异会如何体现?
“混合DSA其实就是在通用的CPU和纯粹专用的DSA之间找一个平衡点。不同的架构师选择的点会完全不一样,但到底谁的设计更好,需要时间的检验。因为架构的设计不是一个纯粹的技术问题,还与当时所处的时间,环境有很大关系。”宇阳这样认为。
其中有赌的部分,浩然说,“混合DSA的片上存储(SRAM)非常贵,因为需要占用的芯片面积非常大,所以到底设计多大的SRAM,需要赌。”
最终混合DSA芯片之间差异将会很小。
“就像如今安卓系统和iOS系统越来越像一样,最后能够留下来的混合DSA架构的AI芯片,可能也是80%相同,只有20%不同。”洪杰做出了这样的判断。
但在走到这一天之前,混合DSA还有一个巨大的难题——比GPGPU和DSA都更复杂的软件栈。这很容易理解,既然是将两种架构融合,系统就更加复杂,难度自然也更大。
当然,更明确的算法又能降低软件开发和优化的难度。
此时,就可以回到最初的问题,中国芯片公司谁能喝到大模型的汤?
发布于 河南
