【Google发布开放大语言模型Gemma】
- Gemma 开放模型系列是基于 Google 的 Gemini 模型系列开发的轻量级、最先进的开放模型。
- Gemma 包含 20 亿参数和 70 亿参数两个模型规模,提供预训练模型和微调后的模型。
- Gemma 模型在语言理解、推理和安全性方面的表现优于同规模的其他开放模型。在 11 个基于文本的任务中表现最好。报告详细评估了模型的安全性和可解释性,并描述了模型开发过程。
- Gemma 建立在 Transformer、深度学习和大规模分布式训练等技术基础上。使用高达 60 万亿Token进行预训练。和 Gemini 一样,通过分阶段训练来提高相关高质量数据在训练末期的权重。
- 对 Gemma 模型进行监督微调和强化学习人工反馈微调,以提高下游任务的性能和人类的偏好评估。选择数据组合和微调方案提高有用性同时最小化模型潜在的伤害。
- Gemma 在推理、数学、编程等多个领域中都优于其他开源模型。如在 MMLU 和 MBPP 上的表现显示了 Gemma 的高性能和开源模型的提升空间。
- 相信相比已有的更大模型,Gemma 对 AI 风险组合影响很小。
- 相信 Gemma 的发布将有利于社区,并期待看到后续的创新应用。
《Gemma: Google introduces new state-of-the-art open models》 https://blog.google/technology/developers/gemma-open-models/ #机器学习# #人工智能#
发布于 美国
