哪家中国芯片公司能“吃下”大模型？（4）摘自雷峰网，作者包永刚专用和通用融合才是大模型的最优解“一个完美的AI大模型处理器应该是用T4 GPU的计算核心，用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的真实需求。而兼具通用性和专用性的混合DSA芯片才是满足大模型需求的理想产品，未

哪家中国芯片公司能“吃下”大模型？（4）

摘自雷峰网，作者包永刚

专用和通用融合才是大模型的最优解
“一个完美的AI大模型处理器应该是用T4 GPU的计算核心，用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的真实需求。
而兼具通用性和专用性的混合DSA芯片才是满足大模型需求的理想产品，未来AI芯片公司的比拼是混合DSA。
6年前，英伟达的Volta架构首次为深度学习加入了Tensor Core，此后的每代架构都不断优化Tensor Core，增强GPU的AI性能。
2022年发布的H100 GPU，又增加了软硬结合的Transformer Engine，目的是加速AI大模型计算。
Tensor Core和Transformer引擎，都是为AI工作流设计的专用计算单元。也就是说，英伟达早就在“通用”的GPGPU上增加了“专用”的AI加速单元，这种融合设计兼顾了GPGPU的通用性，又能发挥专用加速单元的能效比优势，更像是大模型的最优解。
这里有一个会让人费解的问题，既然AI模型都稳定了，为什么不是设计一个Transformer专用的加速芯片，还需要通用性？
“算法的类别虽然从几千种变成几百种，但还在不断优化，只有具备足够的通用性，才能最大化芯片的价值。”宇阳解释。
“从芯片的设计规律看，设计一个Transformer专用加速芯片，去‘赌’未来三至五年内不会有新的模型结构颠覆性的替换掉Transformer，也是一个非常疯狂的想法。”浩然补充。
那混合DSA的路线明确之后，各家芯片的差异会如何体现？
“混合DSA其实就是在通用的CPU和纯粹专用的DSA之间找一个平衡点。不同的架构师选择的点会完全不一样，但到底谁的设计更好，需要时间的检验。因为架构的设计不是一个纯粹的技术问题，还与当时所处的时间，环境有很大关系。”宇阳这样认为。
其中有赌的部分，浩然说，“混合DSA的片上存储（SRAM）非常贵，因为需要占用的芯片面积非常大，所以到底设计多大的SRAM，需要赌。”
最终混合DSA芯片之间差异将会很小。
“就像如今安卓系统和iOS系统越来越像一样，最后能够留下来的混合DSA架构的AI芯片，可能也是80%相同，只有20%不同。”洪杰做出了这样的判断。
但在走到这一天之前，混合DSA还有一个巨大的难题——比GPGPU和DSA都更复杂的软件栈。这很容易理解，既然是将两种架构融合，系统就更加复杂，难度自然也更大。
当然，更明确的算法又能降低软件开发和优化的难度。
此时，就可以回到最初的问题，中国芯片公司谁能喝到大模型的汤？

发布于河南