OpenAI 推理模型 o1 评估研究报告
准确率高达 97.8% 远超其他 LLM 模型 但成本非常高
亚利桑那州立大学的研究人员基于 PlanBench 基准测试,评估了当前 LLMs 和新型 LRM( OpenAI 的 o1 模型)在规划任务中的表现。
模型推理表现:
o1 模型o1 -preview模型在600个Blocksworld问题中的准确率为97.8%,这是现有模型中的最高表现,明显优于其他 LLMs。
-Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。
-LLaMA 3.1 405B模型的准确率为62.6%,是LLMs中表现最好的。
-GPT-4的表现中规中矩,准确率为34.6%,而GPT-4 Turbo为40.1%。
-其他模型,如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。
在 Mystery Blocksworld 这种混淆版本的测试中,o1 模型也取得了 52.8% 的准确率,大幅超越其他模型。
推理时间与成本
o1 -preview模型在每个实例上花费了大约40秒,而在Mystery Blocksworld问题上,推理时间增加到83秒。相比之下,经典的规划算法(如Fast Downward)能够以接近零成本和每个实例0.265秒的时间解决问题。
经济成本方面:尽管 o1 模型在某些任务上具有较高的准确性,但其推理过程非常耗时且昂贵。例如,每 100 个实例的推理成本高达 42.12 美元,远高于传统 LLM 模型的推理成本。
研究者在短期内对o1 模型的评估一共花费了**$1897.55美元**
详细报告解读:http://t.cn/A6EUlnkh
原报告:http://t.cn/A6EUlnk7
