这个现象真是远远超出我的预期了, 最初的deepseek-v3在检查英语句子表达正确性, 翻译正确性和解释正确性上, 远远超过其他评分远高于它的一些大模型. 我用来对比的有deepseek的最新的 deepseek-chat, 以及 chat-gpt-5-chat
deepseek-v3检查出了18个问题
deepseek-chat检查出了2个问题(好多问题都没看到, 漏过了)
chat-gpt-5-chat检查出了8个问题(这8个问题和v3模型基本一致, 但漏过了10个)
我高度怀疑deepseek-v3在英语能力方面做过特训, 但为什么后来升级的时候反而把这部分能力给扔掉了呢?
ai评估结论:
基于你的 prompt 规范:
- ✅ deepseek-v3 是最佳选择:它最严格地执行了你定义的所有规范
- ❌ deepseek-chat 不推荐:遗漏了太多你要求的检查点
- ⚠️ gpt-5 和 reasoner 适中:可以作为补充验证
发布于 浙江
