纯银V
26-06-30 23:07 微博认证:科技博主

晚上做了一个小测试,向 AI 提问:「B 站目前有哪些口碑好的,完整的脱口秀专场?区分充电版和不充电的版本告诉我。」
1、ChatGPT 均衡模式:1 秒钟出答案:幻觉严重,指令依从性极差,推荐了多个 B 站不存在的专场并且屡教不改。
2、ChatGPT 高级模式:3 分钟出答案,这次没有幻觉了,答案质量中等。
3、CodeX 中等智力:5 分钟出答案,这段时间远程操作我的 chrome 打开了多个 B 站专场网页,用互动数作为标准进行排序,然后又找到了 B 站是否为充电视频的外显字段。答案质量最高。

同样是 GPT5.5。

如果有优质语料,AI 的表现其实大差不差。

如果语料不行,就要上工程手段,这时 ChatGPT 均衡模式,或者说一切快速出答案的 AI 都完全不行。高级模式或者 Agent 会用很长的时间给你一个更好的答案。

所以,如果能清晰分辨出答案很差的话,立刻切 chatbox 的高级模式,用时间换质量。

向 Agent 提问省心很多,它会自动判断是否上工程手段,是很快回答还是很慢回答。缺点一是即便 “很快回答” 也比 ChatGPT 均衡模式慢很多,二是燃烧你的(付费)token,三是移动端使用很不方便。

这里的坑是,很多时候你其实分辨不出来 “答案很差”,被幻觉唬得一愣一愣。全部切高级模式或者 Agent 会等得很不耐烦,图快又会被 AI 骗走内裤。

发布于 四川