AI模型研发进展速览

DeepMind团队用定制版的Gemini模型批量解决了十几个数学证明问题；微软亚研院的最新文章敢把93.7%的SWE-Bench Verified结果发表出来。

智谱发布了最新的GLM-OCR模型；千问刚拿出了一个可以跑在Mac Studio上，账面编程成绩不逊色于SOTA太多的精练模型。

我见识很少，但无论是在基础科学还是前沿科技领域，我确实还没见到、也没听过以天为单位度量前沿在哪里的情形。。。其实距离Vibe Coding这个词进入非专业人士视野才刚刚一年不到的时间，距离"会思考"的GPT模型发布也才两年。

有多少激动人心的期待，也有多少令人焦虑的隐忧，但未来几年，一定是不会无聊了。