minimind是一个让你2小时完全从0训练26M的小参数GPT的项目。你自己训练一次，就把整个训练过程了解了。这比看什么课程都强。涉及的内容非常广泛：MiniMind-LLM结构的全部代码（Dense+MoE模型）。包含Tokenizer分词器详细训练代码。包含Pretrain、SFT、LoRA、RLHF-DPO、RLAIF(PPO/GRPO/SPO)、模

minimind是一个让你2小时完全从0训练26M的小参数GPT的项目。
你自己训练一次，就把整个训练过程了解了。
这比看什么课程都强。

涉及的内容非常广泛：
MiniMind-LLM结构的全部代码（Dense+MoE模型）。
包含Tokenizer分词器详细训练代码。
包含Pretrain、SFT、LoRA、RLHF-DPO、RLAIF(PPO/GRPO/SPO)、模型蒸馏的全过程训练代码。
收集、蒸馏、整理并清洗去重所有阶段的高质量数据集，且全部开源。
从0实现预训练、指令微调、LoRA、DPO/PPO/GRPO/SPO强化学习，白盒模型蒸馏。关键算法几乎不依赖第三方封装的框架，且全部开源。
同时兼容transformers、trl、peft等第三方主流框架。
训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练，支持wandb/swanlab可视化训练流程。支持动态启停训练。
在第三方测评榜（C-Eval、C-MMLU、OpenBookQA等）进行模型测试，支持YaRN算法执行RoPE长文本外推。
实现Openai-Api协议的极简服务端，便于集成到第三方ChatUI使用（FastGPT、Open-WebUI等）。
基于streamlit实现最简聊天WebUI前端。
全面兼容社区热门llama.cpp、vllm、ollama推理引擎或Llama-Factory训练框架。
复现(蒸馏/RL)大型推理模型DeepSeek-R1的MiniMind-Reason模型，数据+模型全部开源！

项目地址：github.com/jingyaogong/minimind

发布于江苏