#模型时代# Matt Shumer发布了号称全球最强的开源模型。Matt Shumer是HyperWriteAI公司（写作优化工具）CEO，也是提示词专家，之前我发过不少他基于Claude的提示词。不过昨天他放了一个大卫星，说构建了一个新的”Reflection Llama-3.1 70B模型，实现了世界顶级开源模型性能（地址：

#模型时代# Matt Shumer发布了号称全球最强的开源模型。
Matt Shumer是HyperWriteAI公司（写作优化工具）CEO，也是提示词专家，之前我发过不少他基于Claude的提示词。不过昨天他放了一个大卫星，说构建了一个新的”Reflection Llama-3.1 70B模型，实现了世界顶级开源模型性能（地址：http://t.cn/A6RjixkN）。

宣传语是：“Reflection 70B 在顶级闭源模型（Claude 3.5 Sonnet，GPT-4o）面前也毫不逊色；在（至少）MMLU、MATH、IFEval、GSM8K 中排名靠前；在所有测试的基准上都超过了 GPT-4o。然后彻底打败了Llama 3.1 405B（根本不在一个水平上）”，而且强调，“所有测试的基准都经过 LMSys 的LLM去污染器检查（并没有作弊优化问题）。”

至于为什么这么牛，说是因为采用了一种名为“反思调优”的新技术，教会LLM识别推理中的错误并进行修正。具体来说，在采样过程中，模型将首先在和标签内输出推理，然后一旦对其推理感到满意，就会在和内输出最终答案。这些标签都是特殊的tokens，经过模型训练。这使得模型能够将其内部思考和推理与最终答案分开，从而改善用户体验。

在部分，模型可能会输出一个或多个标签，这表明模型发现了推理中的错误，并将在提供最终答案之前尝试纠正它。值得一提的事，该模型是在 Glaive 生成的合成数据上训练的。

我的理解是，看起来模型其实是把提示工程的技巧“反思”用在了模型推理中。因为如果你在提示工程中，使用反思，同样能够提升模型性能。真是这样的话，道理上这个模型其实是消耗更多的Token，换取更高的质量，再用心理学术语做类比的话，这是强迫模型用“系统二”思考。按照这个思路，以后“训练、推理、微调、提示工程“之间的界限会变得模糊？

最后，比较模型性能，基准测试有用，但是不能都信，还是看个人使用体验。就像Lmsys说GPT-4o是第一，但是开发者都说是Claude3.5才是最强。

发布于北京