分散GPU拼成推理集群

能不能不用数据中心，而把分散的高端消费/工作站 GPU 拼成可用的大模型推理集群？
shard这个项目就在做这个。项目刚测试了，用七个分布在不同地区的 RTX Pro 6000上，通过普通互联网跑起来GLM-5.2 ，速度能达到约30token /s
地址：github.com/leyten/shard
跑的是4位量化版。
#AI创造营#

发布于山东