Bill Dally谈深度学习发展

NVIDIA首席科学家Bill Dally在伯克利的万字演讲，建议深度学习。

Bill Dally最后的总结简洁有力：

深度学习正在改善人类体验，我们还只是在起点。

短期内最大的收益来自将现有质量的模型更有效地应用于各种场景。

解耦推理（预填充是计算密集型，解码是内存/延迟受限型）正在推动架构的重新思考。NVIDIA已经推出了CPX（预填充优化GPU），未来可能还有解码优化GPU。

思维链和思维树让延迟要求雪上加霜——不是运行一次LLM，而是运行数十次。

新的注意力机制是最活跃的创新方向。当前注意力的二次方复杂度是不合理的——大多数词不需要关注所有其他词。稀疏注意力是一个巨大的研究方向。

深度学习因硬件而生：算法和数据早已就绪，GPU点燃了革命。此后以每年16倍的需求增长和12年10^7倍的总增长狂奔至今。

5000倍的GPU推理提升中，只有3倍来自工艺，其余靠数值表示、复杂指令和稀疏性。剩下的差距靠规模化（Scale-up + Scale-out），如今训练大模型需要1万到10万块GPU。

不只是硬件——矩阵乘法器人人会做，但让它可用、高效的软件栈才是真正的护城河。

发布于中国香港