【#开源模型之王Reflection一夜翻车,炒作背后真相揭晓#】
近日,AI 开源社区因为一款新模型 Reflection 70B 掀起了讨论风暴。该模型由 HyperWrite 公司开发,原本被认为是基于 Llama 3.1 70B Instruct 构建的,并且在多个基准测试中超越了 GPT-4。这个模型横扫了 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。
凭借如此惊艳的效果,Reflection 70B 被冠以开源大模型新王。该模型更是由两位开发者(Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary)花了 3 周完成。
但独立分析机构和 Reddit 社区的测试显示,Reflection 70B 可能仅是经过 LoRA 调整的 Llama 3,而非 Llama 3.1。该机构表示,Reflection Llama 3.1 70B 的 MMLU 得分仅与 Llama 3 70B 相同,并且明显低于 Llama 3.1 70B。还有科学推理与知识(GPQA)和定量推理(MATH)基准测试的结果,同样不如 Llama 3.1 70B。
有人奇怪为什么 Reflection 70B 模型一开始就得到了如此多的炒作和关注,毕竟第一个谈论它是「顶级开源模型」的人是开发者本人(Matt)。更有人开始质疑开发者(Matt),认为他只是这家公司(GlaiveAI)的利益相关者,试图通过炒作来增加价值,实际上却对这项技术一无所知。
面对质疑,开发者 Matt Shumer 迅速作出回应,表示问题出在 Hugging Face 权重上传错误,并已开始重新训练模型。尽管如此,社区仍在等待重训练后的结果,以判断这个备受瞩目的模型能否经受住考验。
Matt Shumer解释到:
1. 我是一个超级小的投资者(1000 美元),只是一次支持性的投资,因为我认为 Sahil Chaudhary 很棒。
2. 至于为什么基础模型是 Llama 3,我们不知道。这就是为什么我们从头开始再训练,应该很快完成。
3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验,我们需要弄清楚这一点。
4. 不确定什么是 LORAing,但我们检查了污染,将在下周与 405B(或更早)一起发布数据集,到时候可以查看。
重点关注:
1、Reflection 70B 模型是否真的基于 Llama 3?
2、利益相关者炒作,开发者的重新训练能否改变局面?
3、社区对开源模型透明度的持续关注。
#Reflection 70B# #Llama 3# #人工智能[超话]# #ChatGPT[超话]# #AI探索计划# 信源:机器之心
