大模型越来越强，上海也努力让大模型“考试”更专业、全面！

网信上海 · 公众号 · · 2025-07-21 17:53

主要观点总结

随着大模型考生数量增多和能力增强，更专业、公正、开放的统一考试成为需求。上海人工智能实验室推出的创新开放评测体系司南全面升级，覆盖AI计算系统、通用大模型、具身智能、安全可信和垂类行业应用五大领域，建立全景评估范式。司南已支持超200个大语言模型、150个多模态模型，并参与到国家标准的制定中。未来，司南将助力新技术在实际应用中达到预期标准，构建安全、可信、公平的人工智能生态体系。

关键观点总结

关键观点1: 大模型考生增多，需要更专业、公正、开放的统一考试来衡量能力。

大模型的考生数量越来越多并且能力也在不断提高，这需要更专业的评测体系来衡量其表现。新的评测体系将不仅关注模型性能和技术本身的发展情况，也是连接技术与应用场景以及跨领域合作的重要桥梁。

关键观点2: 司南评测体系的全面升级涵盖了五大领域的能力评估矩阵。

上海人工智能实验室对司南评测体系进行了全面升级，从原有的通用大模型能力评测扩展到了五大领域的能力评估矩阵，包括AI计算系统、具身智能、安全可信和垂类行业应用等。这次升级构建起了一个全景评估范式，覆盖从底层算力到上层智能的全链路关键能力。

关键观点3: 司南评测体系为行业提供一站式全景化的能力刻度。

司南评测体系提供一站式全景化的能力刻度，能够支撑大规模部署和可信应用。上海AI实验室已经构建了系统化、标准化和开放性的评测体系，该体系不仅是衡量模型技术水位的试金石，更是打通研发、应用与监管的重要基础设施。

关键观点4: 司南增加了对“垂类应用评测模块”的支持。

司南新增了垂类应用评测模块，其中包括AI+金融和AI+医疗的评测。金融和医疗领域的特殊性对AI技术的要求很高，因此新的评测方式需要满足这些领域的安全性和专业性需求。

关键观点5: 司南评测体系已对实际应用场景产生影响。

司南评测体系已经对实际应用场景产生了影响。通过科学的评测方法，它能够助力新技术在实际应用中达到预期标准。同时，通过评测识别出当前技术的不足并提供优化方向，进而构建安全、可信、公平的人工智能生态体系。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博