司南评测体系 -OpenCompass
由上海人工智能实验室在2023年7月的世界人工智能大会上推出
目前升级为OpenCompass2.0
构造了一套中英文双语评测基准
涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等方面
OpenCompass 的主要特点包括:
1.开源可复现
2.全面的能力维度
3.丰富的模型支持
4.分布式高效评测
3.多样化评测范式以及灵活化拓展
OpenCompass 推出支撑大模型评测“铁三角”:
评测工具链 CompassKit
高质量评测基准社区 CompassHub
权威评测榜单 CompassRank
目前测试结果:
科大讯飞讯飞星火大模型,国产第一
发布于 广东
