能不能不用数据中心,而把分散的高端消费/工作站 GPU 拼成可用的大模型推理集群?
shard这个项目就在做这个。项目刚测试了,用七个分布在不同地区的 RTX Pro 6000上,通过普通互联网跑起来GLM-5.2 ,速度能达到约30token /s
地址:github.com/leyten/shard
跑的是4位量化版。
#AI创造营#
发布于 山东
能不能不用数据中心,而把分散的高端消费/工作站 GPU 拼成可用的大模型推理集群?
shard这个项目就在做这个。项目刚测试了,用七个分布在不同地区的 RTX Pro 6000上,通过普通互联网跑起来GLM-5.2 ,速度能达到约30token /s
地址:github.com/leyten/shard
跑的是4位量化版。
#AI创造营#