26-06-30 10:18 微博认证:高通无线通信技术(中国)有限公司

#Qualcomm知识课堂##Qualcomm知识课堂# 高通跃龙IQ-9100平台上部署7B模型FastRPC SMMU限制突破记录(二): Python API突破与运行时内存机制:手动开weights_packing,高通跃龙IQ-9100平台上的7B模型瞬间从将二进制从 8.4 GB 压缩到 4.7 GB。实测6-split成功部署,11-split虽崩但权重复用能破4GB IOVA封印,附代码级避坑指南。http://t.cn/AXovUPda

发布于 北京