蚁工厂
26-05-23 10:06 微博认证:科技博主

教学项目:Mini-LLM,从零复现DeepSeekV4
地址:github.com/WKQ9411/Mini-LLM

本项目旨在基于较小的算力,复现当前主流开源模型的架构,实现一个 100-200M 参数量版本的迷你模型(最新版本就是实现一个mini_deepseekv4)。项目将数据集、训练流程等基础设施尽可能固定下来,以便在学习新的模型架构时能够快速复现,从而将主要精力聚焦在模型架构的学习和复现上。

主要目标:
学习并复现当前主流开源模型架构
从零实现常用的训练和推理流程

为了实现这一目标,在先前版本的 Mini-LLM 中,我们完全自定义实现了 model 包,其中包括 BaseModel 和 BaseModelArgs 等基类。后来发现,这样的构建思路与 transformers 库的 PreTrainedModel 和 PretrainedConfig 类似。基于这种相似性,为了更好地与 HuggingFace 生态兼容,我们直接重构了项目结构。当前版本实现的模型完全兼容 transformers 库,可以直接使用 from_pretrained、generate 等方法进行模型加载和推理。同时,为了深入理解训练和推理原理,项目仍然提供了一套独立的训练代码和生成代码实现。早期版本的 Mini-LLM 已移动到 legacy 分支。”
#AI创造营#

发布于 山东