杭州大厂就是牛。
最近杭州大厂搞了个新技术,采用GPU拼车策略,让一块GPU能同时为多个AI模型服务。
以前的做法是,不管一个AI模型是热门还是冷门,只要部署了,就得给它单独配一块GPU等着。
杭州大厂的Aegaeon的新系统,把很多GPU的资源整合成一个大的“算力池”,然后由一个智能系统来派单。
当模型A刚说完一句话正在思考下一句的瞬间,系统就能快速把GPU资源分配给正在等待的模型B用一下,用完了再切回来。
以前AI模型说话是一个字一个字的出来。Aegaeon系统就在模型每蹦出一个字的极短间隙里,快速查看一下有没有其他更紧急的模型要服务,然后决定下一个字先帮谁生成。这种“见缝插针”的方式,使得单块GPU最多能同时服务7个不同的模型。
根据测试结果,在服务几十个大型AI模型时,原本需要1192块GPU,用了这个技术后,只需要213块就够了,用量减少了82%。
在国产GPU算力紧张的大环境下,杭州大厂是真正的技术解决方案。
发布于 上海
