硅谷陈源博士 23-06-22 22:14
微博认证:美国佐治亚理工学院计算机科学博士,NVIDIA(英伟达)主任工程师

《科普一下CPU, GPU和TPU》CPU以迭代的方式处理标量数据,计算并行度低但是单核和单线程性能高,适合于通用和普通的计算任务。GPU和TPU支持高度并行化处理,GPU并行化向量点乘运算,TPU则优化和并行化矩阵乘法。

因为GPU需要通过多次向量点乘运算进行矩阵乘法,因此做矩阵乘法的性能不如TPU。有结果显示,TPU最多可以比GPU快5倍。因此TPU特别适合依赖矩阵乘法的大型深度学习模型。不过大多数机器学习模型并没有使用矩阵乘法实现,并不能真正利用TPU的矩阵乘法并行化能力。

使用TPU的一个问题是主流软件框架只有TensorFlow。PyTorch可以在上面运行,但功能、集成和稳定度都没法和TensorFlow比。另外,租用TPU 也很贵,v4机器的最低成本为12.88美元/小时,而Nvidia A100 GPU的4个GPU也才15.72美元/小时。

#GPU##TPU##CPU#

发布于 美国