蚁工厂复现DeepSeekV4

教学项目：Mini-LLM，从零复现DeepSeekV4
地址：github.com/WKQ9411/Mini-LLM
“
本项目旨在基于较小的算力，复现当前主流开源模型的架构，实现一个 100-200M 参数量版本的迷你模型（最新版本就是实现一个mini_deepseekv4）。项目将数据集、训练流程等基础设施尽可能固定下来，以便在学习新的模型架构时能够快速复现，从而将主要精力聚焦在模型架构的学习和复现上。

主要目标：
学习并复现当前主流开源模型架构
从零实现常用的训练和推理流程

为了实现这一目标，在先前版本的 Mini-LLM 中，我们完全自定义实现了 model 包，其中包括 BaseModel 和 BaseModelArgs 等基类。后来发现，这样的构建思路与 transformers 库的 PreTrainedModel 和 PretrainedConfig 类似。基于这种相似性，为了更好地与 HuggingFace 生态兼容，我们直接重构了项目结构。当前版本实现的模型完全兼容 transformers 库，可以直接使用 from_pretrained、generate 等方法进行模型加载和推理。同时，为了深入理解训练和推理原理，项目仍然提供了一套独立的训练代码和生成代码实现。早期版本的 Mini-LLM 已移动到 legacy 分支。”
#AI创造营#

发布于山东