教育项目Start-MLLM:从零开始学习多模态大模型(建设中)
地址:github.com/datawhalechina/start-mllm
Start-MLLM 是一个面向中文学习者的多模态大模型教程项目
这份教程不想只停留在“知道一些名词”,而是希望带大家走完一条更完整的学习链路:
先理解什么是多模态大模型,以及它与传统 CV、NLP、LLM 的关系。
再理解视觉编码器、跨模态对齐、投影层和生成式架构是怎么工作的。
接着学习数据、训练、评测、部署与应用设计。
最后亲手跑通一个视觉语言模型,并做一个简单的图像问答 Demo。
如果你有 Python 基础,希望系统入门 MLLM,这个项目就是为你准备的。
你将收获什么
系统理解多模态大模型的核心概念、能力边界与主流技术路线
理解视觉编码器、CLIP、Projector、Connector、Instruction Tuning 的工程角色
学会阅读常见 VLM/MLLM 架构图,并知道它们为什么这样设计
了解数据构建、SFT、LoRA、评测基准、部署选型等关键工程问题
能够基于 Transformers 或 OpenAI 兼容接口跑通图文问答
能够进一步把单模态 Agent 扩展成多模态 Agent
能够从教程内容过渡到自己的评测脚本、Demo 和小型开源项目
项目受众
想系统学习多模态大模型的中文学习者
已经了解一点 LLM,想进一步理解 VLM / MLLM 的开发者
想把图像、文档、截图能力接入自己项目或 Agent 的工程实践者
你可以从这个项目中获得:
一条相对完整的 MLLM 入门路径
一组可直接上手的代码脚手架
一套从理论到实战的章节导航
基础要求:
具备 Python 基础语法
能使用命令行安装依赖、运行脚本
对 Transformer / LLM 有初步认识会更顺手,但不是硬性要求
#AI创造营#
