《科普一下CPU, GPU和TPU》CPU以迭代的方式处理标量数据，计算并行度低但是单核和单线程性能高，适合于通用和普通的计算任务。GPU和TPU支持高度并行化处理，GPU并行化向量点乘运算，TPU则优化和并行化矩阵乘法。因为GPU需要通过多次向量点乘运算进行矩阵乘法，因此做矩阵乘法的性能不如TPU。有结果显

《科普一下CPU, GPU和TPU》CPU以迭代的方式处理标量数据，计算并行度低但是单核和单线程性能高，适合于通用和普通的计算任务。GPU和TPU支持高度并行化处理，GPU并行化向量点乘运算，TPU则优化和并行化矩阵乘法。

因为GPU需要通过多次向量点乘运算进行矩阵乘法，因此做矩阵乘法的性能不如TPU。有结果显示，TPU最多可以比GPU快5倍。因此TPU特别适合依赖矩阵乘法的大型深度学习模型。不过大多数机器学习模型并没有使用矩阵乘法实现，并不能真正利用TPU的矩阵乘法并行化能力。

使用TPU的一个问题是主流软件框架只有TensorFlow。PyTorch可以在上面运行，但功能、集成和稳定度都没法和TensorFlow比。另外，租用TPU 也很贵，v4机器的最低成本为12.88美元/小时，而Nvidia A100 GPU的4个GPU也才15.72美元/小时。

#GPU##TPU##CPU#

发布于美国