MiroTrain：面向大规模agentic模型后训练的高效算法优先框架• 构建于开源TorchTune基础，支持SFT和DPO等后训练流程，单节点8×80GB GPU即可完成32B规模模型训练，轻松扩展至百GPU集群。• 极致性能：自动调用FlashAttention和Triton等优化算子，提升训练吞吐；支持streaming_pack动态打包训练样本，

MiroTrain：面向大规模agentic模型后训练的高效算法优先框架

• 构建于开源TorchTune基础，支持SFT和DPO等后训练流程，单节点8×80GB GPU即可完成32B规模模型训练，轻松扩展至百GPU集群。
• 极致性能：自动调用FlashAttention和Triton等优化算子，提升训练吞吐；支持streaming_pack动态打包训练样本，无需预处理数据集。
• 内存效率领先：集成序列并行与CPU卸载，适配大词表和长上下文，兼容FSDPv2 DTensor参数分片，最大化硬件利用。
• 灵活定制：模块化设计，提供可快速修改的SFT和DPO训练recipe，支持Yarn式RoPE扩展和PyTorch模型轻量扩展。
• 生态友好：完全兼容HuggingFace数据集与模型权重，训练检查点标准化保存，方便与Transformers、vLLM及SGLang无缝衔接。
• 便捷部署：支持Docker一键启动，也可通过conda环境手动安装，推荐Python3.10+和CUDA12.1+保证最佳体验。
• 适用场景广泛，助力深度研究与大模型微调，实现高效、可扩展的后训练流程。

🔗 详细介绍见 github.com/MiroMindAI/MiroTrain

#大模型# #后训练# #机器学习# #深度学习# #高性能计算# #人工智能#

发布于北京