唐杰THU 26-05-12 23:10
微博认证:清华大学教授,AMiner创始人 唐杰

说说最近的一些想法吧
-AI Hacker:今年可能最有可能的突破就是长程任务,就是大模型会根据Agent环境数据学到完成一个很长的任务的能力,这可能也是大模型最有价值的地方。比如一个模型能够不停的寻找软件bug,找到软件存在的漏洞,听起来像是搜索,本质上就是学习一个高级黑客找漏洞的思路和方法,但AI嘛可以不停运行,所以*可能*更快的找到漏洞,然后到HackerOne/BugCrow去领了bug赏金。这听起来是好玩,本质上可能是革了黑客的命。。。黑客都被革命了更不要说普通程序员。。。。

-NPC:在长程任务的基础上,autonomous agent system(AAS)将成为下一个热点。还记得去年提了一个词OPC(one person company),没想到这么快就要变成NPC(none person company)。。。。我们都要成为NPC了。。。

-Memory/continual learning/self judge:完成上面两个事情,Memory、continual learning、self judge是三个需要解决的技术问题,原来觉得很难,可能需要很多时间,甚至需要范式变革才能实现(要不怎么continual learning呢)。。。现在感觉技术测和应用测都等不及了。。。。大家拼命用各种技术tricks纷纷部分实现了其中一些能力,比如memory用long context(1M)、rag把效果大大提高了;continual learning很难,但现在国外模型几乎月更,国内也快了,明年再快一点,周更。。。。那不就基本是continual learning了吗?self judge可能还不清楚,但能看出opus 4.7初步具有了self judge的能力。

-ai training ai:更难的可能也是最promising的是自进化(self evolving这个词都各种版本了)。但这次的浪潮更加猛烈。ai training ai基本成型,claude和open ai已经基本实现了自训练,也就是模型自己在写code、自己清洗数据和合成数据、然后自己训练自己,可能本质上是浪费一些算力,但节省了人力和时间呀。大模型时代,速度是最重要的。快速迭代直接拉开了认知差距。明年claude号称要建设一个2M片的算力集群,说不定,这个就是用来模型自训练用的。

小结一下技术趋势,1m有必要,memory和continual learning是个必要条件,但可能会用一些tricky的办法实现一个baseline;harness是突破口和台阶;self-judge是个挑战,Fully自训练也许是个终局。

如果上面是AGI之路,那AGI的定义可能就是全世界所有人的智慧总和(不是一个人的智慧,是世界所有人),那自然应该能具备实现创造“相对论”的能力(达到Hassabis的要求)。AGI实现的过程中,可能所有APP都需要重构,至少做成ai native把。。。。可能重构后都不要这些APP了。。。更挑战的是可能当下的操作系统都要重构,未来当你打开电脑的时候,看到的是LLM OS,所有APP都generate on demand。。。再进一步也许是重构底层逻辑,这是对运行了 80 年的冯·诺依曼体系的挑战,更是对整个计算机行业的颠覆。

最后说到行业颠覆,从完成各行业的长程任务到完全自治的运行,每个行业都可能被AGI重塑,安全、金融、法律、电商、互联网。最近很多朋友找我聊天,说希望改革企业,追上AI步伐。。。但有几个人真正意识到这个不可逆可能已经开启了。。。技术巨浪到来之际,也许既要做好准备也要开始思考一定的监管。

最后的最后,点评一下v4和k2.6,大模型竞争是残酷的,glm-5/5.1的发布怎么说呢,模型的coding效果还行,至今在几个coding榜单还是前几。

发布于 北京