#模型时代##如何构建GPU AI算力集群# 谷歌前CEO施密特演讲中，提到了为什么英伟达的市值这么高，是因为大模型产业3000亿美金的投资，可能率先流向了AI算力集群建设。而之前亚马逊AI专家李沐发了一篇创业博客，其中也提到，创业的第一件事儿就是买卡（直接给黄仁勋发邮件搞定了千卡GPU），而实际项目

#模型时代##如何构建GPU AI算力集群#
谷歌前CEO施密特演讲中，提到了为什么英伟达的市值这么高，是因为大模型产业3000亿美金的投资，可能率先流向了AI算力集群建设。
而之前亚马逊AI专家李沐发了一篇创业博客，其中也提到，创业的第一件事儿就是买卡（直接给黄仁勋发邮件搞定了千卡GPU），而实际项目运转中最难的工作之一就是保证GPU算力集群稳定运行。这只视频来自Lambda Cloud的知识讲解，通过拆分不同算力场景，介绍一个GPU AI算力集群是怎么构建的，完全的技术干货。这只视频在原油管链接下，有一个留言说“这是关于 GPU 集群设计的最佳演讲之一，即使是 3 岁的孩子也能听得津津有味，出色的教学技巧”。不，这其实并不能。

三种算力场景：
***
1、超参数搜索（Hyperparameter search）：
目的是找到性能最佳的神经网络架构和参数。
通过训练多个不同配置的模型,然后比较它们的性能来实现。
每个训练任务可以独立进行,是一个"尴尬并行"（淘汰）的问题。
对网络带宽要求较低,但需要大量独立的计算资源。
通常需要几小时到几天的时间来完成一轮搜索。

2、大规模分布式训练 (Large scale distributed training):
目的是在确定了模型架构后,以最快速度训练大规模模型。
将大批量数据分割到多个服务器上并行训练。
需要节点间频繁通信来同步梯度更新。
对网络带宽要求很高,需要高速互连。
可以大幅缩短训练时间,如将ImageNet训练时间从数天缩短到数小时。

3、产品推理：
目的是将训练好的模型部署到生产环境中服务用户。
需要处理大量并发的实时请求。
对系统可用性和响应时间要求高。
节点间通信较少,主要是独立处理请求。
需要设计高可用、高冗余的系统架构。 http://t.cn/A6RbDeZI

发布于北京