DeepSeek V4用硬核数据证明开源模型的实力:在Codeforces编程竞赛中,V4-Pro以3206分超越GPT-5.4的3168分,成为首个在官方评分超过闭源旗舰的开源模型。数学推理方面,在Putnam-2025数学奥赛达成120/120满分,与Axiom系统并列第一。超长上下文处理上,百万token场景的MRCR任务得分83.5,超过Gemini-3.1-Pro的76.3。但知识宽度仍有差距——SimpleQA得分57.9 vs Gemini-3.1-Pro的75.6。值得注意的是,这些成绩基于真实工程测试:52%的工程师认为V4-Pro可作主力编程模型。当开源模型开始在代码、数学等硬核领域正面击败闭源对手,开发者该如何选择基础模型? http://t.cn/AXxjVJVC
发布于 北京
