谷歌TPU(张量处理单元)经历十年沉淀,终于迎来爆发期。Anthropic签下高达100万颗TPU的采购合同,算力超过1吉瓦,成为迄今最大规模的AI基础设施协议之一。
TPU专注于加速神经网络中的矩阵乘法和机器学习任务。核心是一个256×256的矩阵乘法单元,通过流水线设计持续高效运算,配合片上高速缓存保持数据本地化,确保计算单元几乎100%忙碌。
最新一代TPU v7“铁木(Ironwood)”,采用液冷技术,专为推理优化,支持256芯片的pod和9216芯片的超级pod,性能功耗比创新高。TPU正逐步成为GPU的强力竞争者,更加专注AI计算,运行成本更低,且经过谷歌多年内部实战调优。
这标志着AI硬件从通用GPU向专用芯片转型的新阶段,也验证了谷歌自研芯片的战略眼光。对比Nvidia H200,TPU在矩阵运算速度和与TensorFlow/JAX的深度集成上有优势,而Nvidia则凭借庞大的生态和更大内存具备通用性。
Anthropic大规模采用TPU也反映出垂直整合计算资源的竞争力正在显现,Nvidia或面临真正威胁。十年前谷歌的创新如今被市场广泛认可,AI算力格局即将重塑。
原文链接:x.com/TheTuringPost/status/1982570285317734579
发布于 河北
