魔法师蛋小丁
26-06-16 10:29 微博认证:数码博主

[跪了]把Claude Sonnet 4.6换成MiMo V2.5 Pro跑Hermes Agent翻车以后,我又试了一些Hugging Face别人微调或者蒸馏的开源模型,最后找到了一个 Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking 这玩意,把Qwen3.6-27B稠密模型的参数量扩充到 40B,96层,用Claude 4.6 Opus High Reasoning数据蒸馏,结果竟然意外地不错,比Claude Sonnet 4.6体感还强,用两张RTX Pro 6000 Balckwell跑的话比单张会更快,每张占用显存70多GB,算下来一个月能省几千块钱。

发布于 陕西