昨天 Open AI o1 发布之后非常明确的一个要点就是思维链的使用,这是接下来业界一个非常重要的研发方向。#ai#
结果我今天上 AI 助手看了一下他们已经上了,而且操作非常骚。
他们用了多个国内顶尖模型整合了一个思维链功能,继续发挥单挑不过就群殴的优势。
你现在可以选择三个模型分别作为专家、反思者和总结者三个步骤对一个问题进行答复。
即使第一个专家模型回答有问题或者不完善,后面的反思者和总结者也可以纠正问题给出正确答案。
这个功能上了之后模型幻觉和错误问题可以得到很大的抑制,同时回答的质量也会大幅提高。
涉及逻辑推理问题的正确率虽然没有刚发布的 O1好,但是要比 4O 高非常多。
比如我第一张图的问题,AI 助手不仅给出了全部的结果,甚至考虑到了题目中尽快减少库存的要求直接给出了决策结果降价 20 元。
O1 中规中矩给出两个结果,4O 甚至自作聪明要卖的慢点。
另外他们还推出了国内模型版本的 LLM 模型竞技场,可以用多种方式对国内主流 LLM 进行测试。
支持标准模式、匿名选择、组队挑战等多种模式,还内置了一些测试题。
估计国内几家大厂的测试人员会频繁光顾这个页面了。
非常好玩来试试:http://t.cn/A68Nyuuj
发布于 北京
