是煦煦哟 25-10-15 11:17
微博认证:科技博主 超话小主持人(科技超话)

#人工智能[超话]##微博声浪计划##听见微博# 蚂蚁万亿模型Ring-1T实测:能解奥数、懂医疗,开源后普通人也能玩
10月14日凌晨,蚂蚁集团推出了参数规模达万亿级的思考模型Ring-1T,还把模型权重、训练方法全都开放了。我们实际测试后,发现它的表现超出预期
数学推理:能拿国际奥数银牌
把Ring-1T放进多智能体框架AWorld里,用日常说话的方式让它解2025年IMO国际奥数题,第一次尝试就做对了第1、3、4、5题,水平够得上奥数银牌,也是目前首个能在IMO拿奖的开源系统。第三次试做第2题几何证明时,写出的过程接近满分;解第6题时,最终答案锁定在“4048”(正确答案是2112),和Gemini 2.5 Pro的结果一致,复杂数学题的解题能力很突出。
-通用能力:贴近人类需求,专业领域也靠谱
在“人类偏好对齐”测试Arena-Hard V2里,Ring-1T的成功率有81.59,在所有开源模型里排第一,快赶上GPT-5-Thinking(High)的82.91,说明它很懂人想要什么,给的回答也符合预期。就连对专业性要求高的医疗问答测评HealthBench,它也拿了开源领域最高分,专业问题的回答可靠性有保障。
代码生成:比同类模型更灵活
实际测代码生成时,比如让它画一个“骑自行车的鹈鹕”SVG图,它能完整画出轮子、车架和鹈鹕本体,比DeepSeek V3.2的表现更好。还有“小球被困在旋转六边形里”的物理模拟任务,它不光给了好几种参数让选,还额外加了反弹、墙面摩擦力的效果,功能比预期更全。
UI设计:能复刻Word前端界面
让它复刻Microsoft Word的前端界面时,除了加粗、斜体、下划线这些基础功能,字体大小调整、文字左中右对齐也都能实现,做出来的界面和功能都比较到位。 http://t.cn/AXznh2TX

发布于 福建