招财大爵爷 25-10-20 10:29
微博认证:基金博主 财经博主

杭州大厂就是牛。

最近杭州大厂搞了个新技术,采用GPU拼车策略,让一块GPU能同时为多个AI模型服务。

以前的做法是,不管一个AI模型是热门还是冷门,只要部署了,就得给它单独配一块GPU等着。

杭州大厂的Aegaeon的新系统,把很多GPU的资源整合成一个大的“算力池”,然后由一个智能系统来派单。

当模型A刚说完一句话正在思考下一句的瞬间,系统就能快速把GPU资源分配给正在等待的模型B用一下,用完了再切回来。

以前AI模型说话是一个字一个字的出来。Aegaeon系统就在模型每蹦出一个字的极短间隙里,快速查看一下有没有其他更紧急的模型要服务,然后决定下一个字先帮谁生成。这种“见缝插针”的方式,使得单块GPU最多能同时服务7个不同的模型。

根据测试结果,在服务几十个大型AI模型时,原本需要1192块GPU,用了这个技术后,只需要213块就够了,用量减少了82%。

在国产GPU算力紧张的大环境下,杭州大厂是真正的技术解决方案。

发布于 上海