蚂蚁InclusionAI发布Ring-2.5-1T实测

蚂蚁 InclusionAI 刚刚发布的Ring-2.5-1T实测!

给大家带来蚂蚁 InclusionAI 团队昨天发布的 Ring-2.5-1T 大模型图文实测.

编程水平测试中, 最亮眼的表现是, 在UI设计上有很不错的表现, 可以根据模型知识对UI内容进行扩充, 比如demo中的大象牙膏的实验原理和实验内容, 这部分均合理化的填充到了演示中.
而且建模水平也是可以的, 三角烧瓶还原了大部分细节. 但是在粒子动画方面还有待加强, 具体表现为粒子太小了, 看上去不是真实的泡沫, 以及扩散方向没有按照prompt中约束形成泡沫柱子.
从我测试对模型的体验来看, 纯前端任务表现是可以的. 但是前端+算法+图形学的复杂场景还需要提升.
(另外注意可能存在的知识落后问题, 测试中发现模型还在用 three.js 0.128，新模型普遍已经更新到了可以适用ES Moduled的0.160版本)

长文本召回能力是十分在线的, 0-256K长度上下文召回平均值在98.4%. 其中前128K更是接近100%.
要知道这个模型是一个混合线性架构的模型, 并且128至256K是 YaRN 扩展的上下文, 扩展部分召回都这么猛证明架构是很不错的.

Agent 能力同样使用的大家熟悉的让大模型送外卖的硅基骑手测试, 测试结论是:

在前60K上下文中模型的表现很不错, 能顺利完成送餐并且预估得分能到600+的STOA水平
但当任务上下文累计超过128K后, 模型出现了停止任务的情况, 即模型在还有剩余时间和测试轮次的情况下, 认为自己已经完成全部任务了.
所以模型的长任务能力还有提升的空间. 得分是325.79.

总结: 模型的场上下文能力优秀, 并且适用于前端项目, 复杂 Agent 场景如果在60K上下文之内会有不错的表现, 以及使用中需要注意潜在的前端库版本问题.

#HOW I AI##ring-2.5-1t##InclusionAI##蚂蚁大模型#

发布于北京