蚁工厂
25-05-07 08:31 微博认证:科技博主

@HuggingFace 开源了一个训练/微调小型视觉语言模型的库nanoVLM 。一个纯 PyTorch 实现的视觉语言模型库,仅用 750 行代码即可从零开始训练。
github.com/huggingface/nanoVLM
“nanoVLM 是最简单的代码库,用于训练/微调小型视觉语言模型,采用纯 PyTorch 轻量级实现。代码本身极具可读性和易用性,模型由视觉主干(models/vision_transformer.py 约 150 行)、语言解码器(models/language_model.py 约 250 行)、模态投影(models/modality_projection.py 约 50 行)、VLM 主体( models/vision_language_model.py 约 100 行)以及简易训练循环(train.py 约 200 行)构成。

与 Andrej Karpathy 的 nanoGPT 类似,我们希望为社区提供一个极其简洁的视觉语言模型实现及训练脚本。我们并不宣称这是新的 SOTA 模型,而是一项教育性尝试——若您拥有合适的硬件,它将展现出惊人的潜力!您应当能够立即对代码进行调整和实验。”
#微博兴趣创作计划##互联网公司#

发布于 山东