震东很耐心 26-01-06 12:14
微博认证:职业投资人 财经博主

转一个雪球iFly2023的观点
非常赞同,这个也和我之前说的场景为王很一致

基准测试是所有AI公司的唯一护城河
看了Manus季逸超最近的一篇访谈,里面提到几个观点确认了我之前的两个认知:

1 AI模型公司最后都会成为AI应用公司,而AI应用公司最后都会成为模型公司。模型公司即应用公司,应用公司即模型公司。

2 评估或基准测试是所能AI公司的唯一护城河。这点季逸超说得非常绝对,一般人会加上“之一”,而季逸超用了“所有”、“唯一”的词语。强调了算力、算法和数据都没有壁垒,唯一的壁垒只有内部评估或基准测试。这里的内部评估或基准测试,实际上指的是对场景的理解。注意,这里不是场景,是对场景的理解。

关于这点,网上有很多争议。本人倒对这个结论是非常理解的,其逻辑也非常简单:
大模型学会推理,且推理能力会不断增强 =》所有的评估或基准测试,大模型最终都能达到100分 =》在这种情况下,场景应用水平就等于评估或基准测试代表场景应用的水平。

也就是说大模型会100%通过所有基准测试,如果基准测试能够100%衡量场景应用效果,那大模型在场景中的应用效果也就达到100分。这里面也有不确定性,比如,推理能力会不断增强吗?如果已经停滞了呢,大模型的基准测试水平也停止了,模型性能依然是决定因素,那模型还是有价值的,基准测试就不会是唯一护城河。但季逸超还是做出了自己的推断,所有的大模型都会通过所有的基准测试,除非哪个基准测试是你内部独有的。

基于以上推断,为大模型训练建立的内部基准测试将是决定大模型最终性能的决定性因素。基准测试对场景的仿真水平就决定大模型在该场景下的使用效果。为了建立最能仿真场景的基准测试,必须深入场景,收集该场景下的数据,建立最精确的基准测试。算力、算法和数据都没有壁垒,场景才是重要的。不,是对场景的理解才是最重要的。场景是摆在哪儿的,脏活累活很多厂不愿意干,但愿意干的也大有人在。即使如此,大家对场景的理解也是不一样的,介入的方式也有差别。模型需要迭代训练,而基准测试也是需要不断迭代的,对场景的理解也是不断在增强的,必须基于整个循环来打造大模型训练的组织。

未来能够脱颖而出的AI应用公司,将会是这样的:极度重视场景仿真的优化和迭代,把对场景的理解放在模型训练的最重要环节,重组组织架构实现整个循环的迭代。哪些把基准测试当做静态的而不断打磨大模型训练的AI公司都会出局。那些敢于由场景团队来牵头并打造大模型训练流程的公司将会是胜者。现在比的是谁更先能理解这一点,执行得更彻底

作者:iFly2023
链接:http://t.cn/AXbJiN0T
来源:雪球
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。

发布于 四川