Start-MLLM教程发布

教育项目Start-MLLM：从零开始学习多模态大模型（建设中）
地址：github.com/datawhalechina/start-mllm

Start-MLLM 是一个面向中文学习者的多模态大模型教程项目

这份教程不想只停留在“知道一些名词”，而是希望带大家走完一条更完整的学习链路：
先理解什么是多模态大模型，以及它与传统 CV、NLP、LLM 的关系。
再理解视觉编码器、跨模态对齐、投影层和生成式架构是怎么工作的。
接着学习数据、训练、评测、部署与应用设计。
最后亲手跑通一个视觉语言模型，并做一个简单的图像问答 Demo。

如果你有 Python 基础，希望系统入门 MLLM，这个项目就是为你准备的。
你将收获什么
系统理解多模态大模型的核心概念、能力边界与主流技术路线
理解视觉编码器、CLIP、Projector、Connector、Instruction Tuning 的工程角色
学会阅读常见 VLM/MLLM 架构图，并知道它们为什么这样设计
了解数据构建、SFT、LoRA、评测基准、部署选型等关键工程问题
能够基于 Transformers 或 OpenAI 兼容接口跑通图文问答
能够进一步把单模态 Agent 扩展成多模态 Agent
能够从教程内容过渡到自己的评测脚本、Demo 和小型开源项目

项目受众
想系统学习多模态大模型的中文学习者
已经了解一点 LLM，想进一步理解 VLM / MLLM 的开发者
想把图像、文档、截图能力接入自己项目或 Agent 的工程实践者

你可以从这个项目中获得：
一条相对完整的 MLLM 入门路径
一组可直接上手的代码脚手架
一套从理论到实战的章节导航

基础要求：
具备 Python 基础语法
能使用命令行安装依赖、运行脚本
对 Transformer / LLM 有初步认识会更顺手，但不是硬性要求
#AI创造营#

发布于山东