AI 科学家 Maryam Miradi 将构建大语言模型的过程归纳为 6个核心步骤，了解这些步骤，可以帮助我们看懂各种大语言模型相关的文章。✸ 1️⃣ 数据收集（网页爬取与整理）1. 网页爬取：通过 Scrapy、BeautifulSoup 及各类 API，从书籍、学术论文、Wikipedia、GitHub、Reddit 等渠道收集数据。2. 数

AI 科学家 Maryam Miradi 将构建大语言模型的过程归纳为 6个核心步骤，了解这些步骤，可以帮助我们看懂各种大语言模型相关的文章。

✸ 1️⃣ 数据收集（网页爬取与整理）

1. 网页爬取：通过 Scrapy、BeautifulSoup 及各类 API，从书籍、学术论文、Wikipedia、GitHub、Reddit 等渠道收集数据。
2. 数据过滤与清洗：去除重复、垃圾、损坏的 HTML 内容，过滤带有偏见、受版权保护或不适宜的信息。
3. 数据集结构化：用 BPE 或 Unigram 算法对文本进行分词，并添加来源、时间戳、质量评分等元数据。

✸ 2️⃣ 预处理与分词

1. 分词：采用 SentencePiece 或 GPT 的 BPE 分词器，将文本转换为数字化的Token。
2. 数据格式化：将数据集整理成 JSON 或 Hugging Face 格式，利用分片（Sharding）实现并行处理。

✸ 3️⃣ 模型架构与预训练

1. 架构选择：选用基于Transformer的模型（如GPT），并确定参数规模（7B–175B）。
2. 计算资源与基础设施：在GPU/TPU上，结合 PyTorch、JAX、DeepSpeed、Megatron-LM等工具进行训练。
3. 预训练流程：采用因果语言建模（CLM），以交叉熵损失为目标，结合梯度检查点和并行化训练技术。
4. 训练优化：应用混合精度、梯度裁剪和自适应学习率调度器等方法提升训练效率。

✸ 4️⃣ 模型对齐（微调与RLHF）

1. 监督微调（SFT）：在高质量、人工标注的数据集（如 InstructGPT）上进行训练。
2. 人类反馈强化学习（RLHF）：生成模型回复、对输出进行排序、训练奖励模型（PPO），并利用近端策略优化（PPO）不断优化表现。
3. 安全与合规（宪法 AI）：采用RLAIF、对抗训练和偏见过滤等手段提升安全性。

✸ 5️⃣ 部署与优化

1. 模型压缩与量化：通过 GPTQ、AWQ 和知识蒸馏等方法减小模型体积。
2. API部署与扩展：利用 vLLM、Triton Inference Server、TensorRT、ONNX和Ray Serve等工具，实现高效推理和大规模部署。
3. 监控与持续学习：实时监测模型性能、响应延迟及幻觉现象，持续改进模型表现。

✸ 6️⃣ 评估与基准测试

1. 性能验证：通过 HumanEval、HELM、OpenAI Eval、MMLU、MT-Bench 等基准测试工具进行全面评估。

#AI技术[超话]##大语言模型##AI科普营##AI技术指南##AI创造营#

发布于上海