Unsloth 夯微调版本 GPT-OSS 来了, 上下文长度提升了8倍,显存用量减少50%!
需要注意的是,这里提升的是原生上下文长度!(GPT-OSS原生上下文长度只有可怜的4K)而不是 ROPE YaRN 扩展那个。也就是说 Unsloth 这个版本在60K上下文以内效果都非常好,然后再用 YaRN 能可扩展到更长!(按照OpenAI官方那个扩展倍数计算,60K能最大扩到1920K!(1.9M!当然效果肯定没原生的好)我一会问下unsloth看看真的能扩到这么大么,有结论了我贴在评论区)
另外还修复了 gpt-oss 训练损失趋于无穷大的问题,可以放心微调出自己喜欢的版本的 GPT-OSS了。说句题外话,建议只用20B,120B多方面证明还不如20B效果好。
地址:docs.unsloth.ai/get-started/all-our-models
#AI生活指南##ai创造营#
发布于 日本
