#Claude3.5链式文本测试赢了GPT-4o##提示工程师# 昨天Anthropic的Claude 3.5 Sonnet发布，口号是：主要评估指标上都优于竞争对手，速度是Claude 3 Opus 的两倍，成本是后者五分之一，就是又强又快又便宜了（之前Claude3被人诟病的一点就是token更贵）。不过OpenAI会很快反击吗？以之前经验看，OpenA

#Claude3.5链式文本测试赢了GPT-4o##提示工程师#
昨天Anthropic的Claude 3.5 Sonnet发布，口号是：主要评估指标上都优于竞争对手，速度是Claude 3 Opus 的两倍，成本是后者五分之一，就是又强又快又便宜了（之前Claude3被人诟病的一点就是token更贵）。
不过OpenAI会很快反击吗？以之前经验看，OpenAI对Anthropic的反应比较迟钝。Claude3发布，也没有第一时间给予反击，总得来说，还是更在意谷歌。

1、书归正传。虽然基准评测表现不错，但是具体是否强还看实际使用。提示词专家Umesh做了一个链式文本测试，最后结果显示，Claude3.5确实表现不错，在这一项测试中，赢过了GPT-4o。

2、所谓“链式文本”测试，是求模型'用 100 个单词（这里是英文）写一个小故事，其中每个单词的最后一个字母都要作为下一个单词的第一个字母。（图一）如果用中文类比，就是这样的文字：
明月松间照，
照亮夜行人。
人影孤单单，
单独步深林。

3、这个测试的难点在于，通常的语言模型生成是基于词汇和上下文，而非具体字符。因此，要在生成过程中不断应用字符级别的约束，就需要模型在词生成的同时，跟踪每个词的第一个和最后一个字母。字符级别的控制比词汇级别的控制复杂度高得多（所以这样讲，中文链式文本，没有英文难）。最后，克劳德的工作非常出色（图二），而 GPT-4o 的工作却错误百出（图三）。

4、至于Claude3.5为什么能有更好的表现。一个是可能模型有更好的模型动态预测能力。一个是在训练数据中，有类似特定规则的文本。

5、然后，Anthropic对于安全的人设拿得也是很稳的。自己在博客文章中说，“尽管克劳德 3.5 Sonnet 的智力有了飞跃，但红队评估认为，克劳德 3.5 Sonnet 仍处于 ASL-2 级”（即：当前大模型水平）。而且，已经将 Claude 3.5 Sonnet 提供给英国人工智能安全研究所（UK AISI）进行部署前安全评估，并完成测试。

发布于江苏