【#开源模型之王Reflection一夜翻车，炒作背后真相揭晓#】近日，AI 开源社区因为一款新模型 Reflection 70B 掀起了讨论风暴。该模型由 HyperWrite 公司开发，原本被认为是基于 Llama 3.1 70B Instruct 构建的，并且在多个基准测试中超越了 GPT-4。这个模型横扫了 MMLU、MATH、IFEval、GSM8K，在每项

【#开源模型之王Reflection一夜翻车，炒作背后真相揭晓#】

近日，AI 开源社区因为一款新模型 Reflection 70B 掀起了讨论风暴。该模型由 HyperWrite 公司开发，原本被认为是基于 Llama 3.1 70B Instruct 构建的，并且在多个基准测试中超越了 GPT-4。这个模型横扫了 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。
凭借如此惊艳的效果，Reflection 70B 被冠以开源大模型新王。该模型更是由两位开发者（Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary）花了 3 周完成。

但独立分析机构和 Reddit 社区的测试显示，Reflection 70B 可能仅是经过 LoRA 调整的 Llama 3，而非 Llama 3.1。该机构表示，Reflection Llama 3.1 70B 的 MMLU 得分仅与 Llama 3 70B 相同，并且明显低于 Llama 3.1 70B。还有科学推理与知识（GPQA）和定量推理（MATH）基准测试的结果，同样不如 Llama 3.1 70B。

有人奇怪为什么 Reflection 70B 模型一开始就得到了如此多的炒作和关注，毕竟第一个谈论它是「顶级开源模型」的人是开发者本人（Matt）。更有人开始质疑开发者（Matt），认为他只是这家公司（GlaiveAI）的利益相关者，试图通过炒作来增加价值，实际上却对这项技术一无所知。

面对质疑，开发者 Matt Shumer 迅速作出回应，表示问题出在 Hugging Face 权重上传错误，并已开始重新训练模型。尽管如此，社区仍在等待重训练后的结果，以判断这个备受瞩目的模型能否经受住考验。
Matt Shumer解释到：
1. 我是一个超级小的投资者（1000 美元），只是一次支持性的投资，因为我认为 Sahil Chaudhary 很棒。
2. 至于为什么基础模型是 Llama 3，我们不知道。这就是为什么我们从头开始再训练，应该很快完成。
3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验，我们需要弄清楚这一点。
4. 不确定什么是 LORAing，但我们检查了污染，将在下周与 405B（或更早）一起发布数据集，到时候可以查看。

重点关注：
1、Reflection 70B 模型是否真的基于 Llama 3？
2、利益相关者炒作，开发者的重新训练能否改变局面？
3、社区对开源模型透明度的持续关注。

#Reflection 70B# #Llama 3# #人工智能[超话]# #ChatGPT[超话]# #AI探索计划# 信源：机器之心

发布于北京