huggingface出了一个官方的复刻DeepSeek-V4的教学项目:nanowhale
地址:github.com/huggingface/nanowhale
nanowhale 是 Hugging Face 做的一个小型 DeepSeek-V4 架构复现实验项目,用约 1.1 亿参数实现了 MLA 注意力、MoE、Hyper-Connections、MTP 等关键组件,并提供从零预训练、SFT 微调、评测、聊天和上传 Hub 的完整流程。
很适合用来学习和实验 DeepSeek-V4 风格模型架构。
#AI创造营##How I AI#
发布于 山东
