互联网的那点事
25-01-22 15:58 微博认证:微博互联网观察家

这几天国产模型轮番轰炸 Deepseek和 Kimi 刚发完,字节跳动又来了

字节正式发布豆包大模型1.5Pro

Doubao 1.5 Pro在多项指标上达到了国际领先水平,与GPT 4o、Gemini-exp-
1205、Claude-3.5-Sonnet-latest 基本持平或领先,中文能力碾压式领先。

豆包团队还推出了一个Doubao-1.5-pro-AS1-Preview 阶段性推理模型测试版本,专注于深度思考推理能力,性能和 OpenAI o1 不相上下。

最重要的是Doubao 1.5 Pro是一个完全没有使用知识蒸馏技术的模型。

豆包团队称,所有模型训练过程中,未使用任何其他模型生成的任何数据。

模型蒸馏本质上是通过将一个强大的“大模型”(通常称为教师模型,如GPT-4o)的知识传递给一个较小的“学生模型”,从而训练出一个性能接近但更加高效的模型。

这种方式训练效率更高、成本更低,性能几乎与教师模型接近。

但根据中科院深圳先进技术研究院、北京大学等多家机构的研究发现,知识蒸馏技术在应用中暴露出了一些显著问题:

1. 同质化问题

· 过度蒸馏导致多个学生模型的输出趋于一致,缺乏多样性。
· 不同团队或机构开发的模型呈现出相似的行为和特性。

2、鲁棒性下降

· 蒸馏后的学生模型对噪声和对抗性输入的抵抗能力下降。
· 模型可能无法处理复杂任务,甚至出现训练中未见过的输入时的不稳定性。

3、安全与道德风险

蒸馏模型容易通过越狱攻击等手段暴露其来源或数据特性。
被攻击时可能输出有害、虚假或偏见性信息。

4、技术透明性不足:现有闭源模型的开发过程和数据来源不透明,学术研究难以进行独立评估。

根据研究,Claude、豆包和Gemini等模型蒸馏程度较低,展现了更大的独立性。
Qwen-Max和DeepSeek-V3表现出较高的蒸馏水平,与教师模型输出较为接近。

同时豆包-1.5-pro 不仅处理文字,还将视觉和语音理解能力深度融合:

支持动态分辨率,可以精准处理高分辨率和极端比例的图像。不仅能看懂图片,还能结合现实和虚拟场景的各种视觉信息,提供更智能、更友好的支持,比如自动识别图表内容、辅助分析图像中的数据,甚至帮助做决策。

推出了全新的 Speech2Speech 端到端框架,语音理解和生成能力更自然:支持随时打断,实现流畅对话,能模拟各种情绪和感情,更加拟人。

详细介绍:http://t.cn/A634QcXg

发布于 日本