零重力瓦力
25-11-10 17:23 微博认证:AI博主

AI 科学家 Maryam Miradi 将构建大语言模型的过程归纳为 6个核心步骤,了解这些步骤,可以帮助我们看懂各种大语言模型相关的文章。

✸ 1️⃣ 数据收集(网页爬取与整理)

1. 网页爬取:通过 Scrapy、BeautifulSoup 及各类 API,从书籍、学术论文、Wikipedia、GitHub、Reddit 等渠道收集数据。
2. 数据过滤与清洗:去除重复、垃圾、损坏的 HTML 内容,过滤带有偏见、受版权保护或不适宜的信息。
3. 数据集结构化:用 BPE 或 Unigram 算法对文本进行分词,并添加来源、时间戳、质量评分等元数据。

✸ 2️⃣ 预处理与分词

1. 分词:采用 SentencePiece 或 GPT 的 BPE 分词器,将文本转换为数字化的Token。
2. 数据格式化:将数据集整理成 JSON 或 Hugging Face 格式,利用分片(Sharding)实现并行处理。

✸ 3️⃣ 模型架构与预训练

1. 架构选择:选用基于Transformer的模型(如GPT),并确定参数规模(7B–175B)。
2. 计算资源与基础设施:在GPU/TPU上,结合 PyTorch、JAX、DeepSpeed、Megatron-LM等工具进行训练。
3. 预训练流程:采用因果语言建模(CLM),以交叉熵损失为目标,结合梯度检查点和并行化训练技术。
4. 训练优化:应用混合精度、梯度裁剪和自适应学习率调度器等方法提升训练效率。

✸ 4️⃣ 模型对齐(微调与RLHF)

1. 监督微调(SFT):在高质量、人工标注的数据集(如 InstructGPT)上进行训练。
2. 人类反馈强化学习(RLHF):生成模型回复、对输出进行排序、训练奖励模型(PPO),并利用近端策略优化(PPO)不断优化表现。
3. 安全与合规(宪法 AI):采用RLAIF、对抗训练和偏见过滤等手段提升安全性。

✸ 5️⃣ 部署与优化

1. 模型压缩与量化:通过 GPTQ、AWQ 和知识蒸馏等方法减小模型体积。
2. API部署与扩展:利用 vLLM、Triton Inference Server、TensorRT、ONNX和Ray Serve等工具,实现高效推理和大规模部署。
3. 监控与持续学习:实时监测模型性能、响应延迟及幻觉现象,持续改进模型表现。

✸ 6️⃣ 评估与基准测试

1. 性能验证:通过 HumanEval、HELM、OpenAI Eval、MMLU、MT-Bench 等基准测试工具进行全面评估。

#AI技术[超话]##大语言模型##AI科普营##AI技术指南##AI创造营#

发布于 上海