NVIDIA首席科学家Bill Dally在伯克利的万字演讲,建议深度学习。
Bill Dally最后的总结简洁有力:
深度学习正在改善人类体验,我们还只是在起点。
短期内最大的收益来自将现有质量的模型更有效地应用于各种场景。
解耦推理(预填充是计算密集型,解码是内存/延迟受限型)正在推动架构的重新思考。NVIDIA已经推出了CPX(预填充优化GPU),未来可能还有解码优化GPU。
思维链和思维树让延迟要求雪上加霜——不是运行一次LLM,而是运行数十次。
新的注意力机制是最活跃的创新方向。当前注意力的二次方复杂度是不合理的——大多数词不需要关注所有其他词。稀疏注意力是一个巨大的研究方向。
深度学习因硬件而生:算法和数据早已就绪,GPU点燃了革命。此后以每年16倍的需求增长和12年10^7倍的总增长狂奔至今。
5000倍的GPU推理提升中,只有3倍来自工艺,其余靠数值表示、复杂指令和稀疏性。剩下的差距靠规模化(Scale-up + Scale-out),如今训练大模型需要1万到10万块GPU。
不只是硬件——矩阵乘法器人人会做,但让它可用、高效的软件栈才是真正的护城河。
发布于 中国香港
