#模型时代# Matt Shumer发布了号称全球最强的开源模型。
Matt Shumer是HyperWriteAI公司(写作优化工具)CEO,也是提示词专家,之前我发过不少他基于Claude的提示词。不过昨天他放了一个大卫星,说构建了一个新的”Reflection Llama-3.1 70B模型,实现了世界顶级开源模型性能(地址:http://t.cn/A6RjixkN)。
宣传语是:“Reflection 70B 在顶级闭源模型(Claude 3.5 Sonnet,GPT-4o)面前也毫不逊色;在(至少)MMLU、MATH、IFEval、GSM8K 中排名靠前;在所有测试的基准上都超过了 GPT-4o。然后彻底打败了Llama 3.1 405B(根本不在一个水平上)”,而且强调,“所有测试的基准都经过 LMSys 的LLM去污染器检查(并没有作弊优化问题)。”
至于为什么这么牛,说是因为采用了一种名为“反思调优”的新技术,教会LLM识别推理中的错误并进行修正。具体来说,在采样过程中,模型将首先在
在
我的理解是,看起来模型其实是把提示工程的技巧“反思”用在了模型推理中。因为如果你在提示工程中,使用反思,同样能够提升模型性能。真是这样的话,道理上这个模型其实是消耗更多的Token,换取更高的质量,再用心理学术语做类比的话,这是强迫模型用“系统二”思考。按照这个思路,以后“训练、推理、微调、提示工程“之间的界限会变得模糊?
最后,比较模型性能,基准测试有用,但是不能都信,还是看个人使用体验。就像Lmsys说GPT-4o是第一,但是开发者都说是Claude3.5才是最强。
