杭州大厂就是牛。最近杭州大厂搞了个新技术，采用GPU拼车策略，让一块GPU能同时为多个AI模型服务。以前的做法是，不管一个AI模型是热门还是冷门，只要部署了，就得给它单独配一块GPU等着。杭州大厂的Aegaeon的新系统，把很多GPU的资源整合成一个大的“算力池”，然后由一个智能系统来派单。当

杭州大厂就是牛。

最近杭州大厂搞了个新技术，采用GPU拼车策略，让一块GPU能同时为多个AI模型服务。

以前的做法是，不管一个AI模型是热门还是冷门，只要部署了，就得给它单独配一块GPU等着。

杭州大厂的Aegaeon的新系统，把很多GPU的资源整合成一个大的“算力池”，然后由一个智能系统来派单。

当模型A刚说完一句话正在思考下一句的瞬间，系统就能快速把GPU资源分配给正在等待的模型B用一下，用完了再切回来。

以前AI模型说话是一个字一个字的出来。Aegaeon系统就在模型每蹦出一个字的极短间隙里，快速查看一下有没有其他更紧急的模型要服务，然后决定下一个字先帮谁生成。这种“见缝插针”的方式，使得单块GPU最多能同时服务7个不同的模型。

根据测试结果，在服务几十个大型AI模型时，原本需要1192块GPU，用了这个技术后，只需要213块就够了，用量减少了82%。

在国产GPU算力紧张的大环境下，杭州大厂是真正的技术解决方案。

发布于上海