DeepMind团队用定制版的Gemini模型批量解决了十几个数学证明问题;微软亚研院的最新文章敢把93.7%的SWE-Bench Verified结果发表出来。
智谱发布了最新的GLM-OCR模型;千问刚拿出了一个可以跑在Mac Studio上,账面编程成绩不逊色于SOTA太多的精练模型。
我见识很少,但无论是在基础科学还是前沿科技领域,我确实还没见到、也没听过以天为单位度量前沿在哪里的情形。。。其实距离Vibe Coding这个词进入非专业人士视野才刚刚一年不到的时间,距离"会思考"的GPT模型发布也才两年。
有多少激动人心的期待,也有多少令人焦虑的隐忧,但未来几年,一定是不会无聊了。
发布于 北京
