#Claude3.5链式文本测试赢了GPT-4o##提示工程师#
昨天Anthropic的Claude 3.5 Sonnet发布,口号是:主要评估指标上都优于竞争对手,速度是Claude 3 Opus 的两倍,成本是后者五分之一,就是又强又快又便宜了(之前Claude3被人诟病的一点就是token更贵)。
不过OpenAI会很快反击吗?以之前经验看,OpenAI对Anthropic的反应比较迟钝。Claude3发布,也没有第一时间给予反击,总得来说,还是更在意谷歌。
1、书归正传。虽然基准评测表现不错,但是具体是否强还看实际使用。提示词专家Umesh做了一个链式文本测试,最后结果显示,Claude3.5确实表现不错,在这一项测试中,赢过了GPT-4o。
2、所谓“链式文本”测试,是求模型'用 100 个单词(这里是英文)写一个小故事,其中每个单词的最后一个字母都要作为下一个单词的第一个字母。(图一)如果用中文类比,就是这样的文字:
明月松间照,
照亮夜行人。
人影孤单单,
单独步深林。
3、这个测试的难点在于,通常的语言模型生成是基于词汇和上下文,而非具体字符。因此,要在生成过程中不断应用字符级别的约束,就需要模型在词生成的同时,跟踪每个词的第一个和最后一个字母。字符级别的控制比词汇级别的控制复杂度高得多(所以这样讲,中文链式文本,没有英文难)。最后,克劳德的工作非常出色(图二),而 GPT-4o 的工作却错误百出(图三)。
4、至于Claude3.5为什么能有更好的表现。一个是可能模型有更好的模型动态预测能力。一个是在训练数据中,有类似特定规则的文本。
5、然后,Anthropic对于安全的人设拿得也是很稳的。自己在博客文章中说,“尽管克劳德 3.5 Sonnet 的智力有了飞跃,但红队评估认为,克劳德 3.5 Sonnet 仍处于 ASL-2 级”(即:当前大模型水平)。而且,已经将 Claude 3.5 Sonnet 提供给英国人工智能安全研究所(UK AISI)进行部署前安全评估,并完成测试。
