爱可可-爱生活 25-08-14 18:15
微博认证:AI博主 2025微博新锐新知博主

MiroTrain:面向大规模agentic模型后训练的高效算法优先框架

• 构建于开源TorchTune基础,支持SFT和DPO等后训练流程,单节点8×80GB GPU即可完成32B规模模型训练,轻松扩展至百GPU集群。
• 极致性能:自动调用FlashAttention和Triton等优化算子,提升训练吞吐;支持streaming_pack动态打包训练样本,无需预处理数据集。
• 内存效率领先:集成序列并行与CPU卸载,适配大词表和长上下文,兼容FSDPv2 DTensor参数分片,最大化硬件利用。
• 灵活定制:模块化设计,提供可快速修改的SFT和DPO训练recipe,支持Yarn式RoPE扩展和PyTorch模型轻量扩展。
• 生态友好:完全兼容HuggingFace数据集与模型权重,训练检查点标准化保存,方便与Transformers、vLLM及SGLang无缝衔接。
• 便捷部署:支持Docker一键启动,也可通过conda环境手动安装,推荐Python3.10+和CUDA12.1+保证最佳体验。
• 适用场景广泛,助力深度研究与大模型微调,实现高效、可扩展的后训练流程。

🔗 详细介绍见 github.com/MiroMindAI/MiroTrain

#大模型# #后训练# #机器学习# #深度学习# #高性能计算# #人工智能#

发布于 北京