纯银V测AI问答_新浪新闻

晚上做了一个小测试，向 AI 提问：「B 站目前有哪些口碑好的，完整的脱口秀专场？区分充电版和不充电的版本告诉我。」
1、ChatGPT 均衡模式：1 秒钟出答案：幻觉严重，指令依从性极差，推荐了多个 B 站不存在的专场并且屡教不改。
2、ChatGPT 高级模式：3 分钟出答案，这次没有幻觉了，答案质量中等。
3、CodeX 中等智力：5 分钟出答案，这段时间远程操作我的 chrome 打开了多个 B 站专场网页，用互动数作为标准进行排序，然后又找到了 B 站是否为充电视频的外显字段。答案质量最高。

同样是 GPT5.5。

如果有优质语料，AI 的表现其实大差不差。

如果语料不行，就要上工程手段，这时 ChatGPT 均衡模式，或者说一切快速出答案的 AI 都完全不行。高级模式或者 Agent 会用很长的时间给你一个更好的答案。

所以，如果能清晰分辨出答案很差的话，立刻切 chatbox 的高级模式，用时间换质量。

向 Agent 提问省心很多，它会自动判断是否上工程手段，是很快回答还是很慢回答。缺点一是即便 “很快回答” 也比 ChatGPT 均衡模式慢很多，二是燃烧你的（付费）token，三是移动端使用很不方便。

这里的坑是，很多时候你其实分辨不出来 “答案很差”，被幻觉唬得一愣一愣。全部切高级模式或者 Agent 会等得很不耐烦，图快又会被 AI 骗走内裤。

发布于四川