昨晚,谷歌发布Gemini3。
谷歌黑板报说:
凭借领先的推理能力和强大的多模态功能,Gemini 3 Pro 能够将任何创意变为现实。在每个关键的 AI 基准测试中,它的性能均显著超越 2.5 Pro。
它在 LMArena 排行榜上以 1501 的突破性 Elo 评分高居榜首。其在推理能力上展现出博士水平,在“人类终极考试”中(未使用任何工具的情况下得分率达 37.5%)及 GPQA Diamond 基准测试中(准确率高达 91.9%)均获得最高分。此外,它在数学领域为前沿模型树立了全新标杆,在 MathArena Apex 测试中,以 23.4% 达到了最先进水平(State-of-the-Art)。
除了文本能力,Gemini 3 Pro 在 MMMU-Pro 上取得 81% 的成绩,在 Video-MMMU 上达到 87.6%。同时,该模型在 SimpleQA Verified 基准测试中也斩获了当前最先进的 72.1% 得分,展现出其在事实准确性方面的显著进步。这意味着 Gemini 3 Pro 具备高度可靠性,能够有效解决跨越科学和数学等广泛主题的复杂问题。
发布于 广东
