专栏名称: 网信上海
政策解读、发布信息、提供服务
目录
相关文章推荐
今天看啥  ›  专栏  ›  网信上海

大模型越来越强,上海也努力让大模型“考试”更专业、全面!

网信上海  · 公众号  ·  · 2025-07-21 17:53
    

主要观点总结

随着大模型考生数量增多和能力增强,更专业、公正、开放的统一考试成为需求。上海人工智能实验室推出的创新开放评测体系司南全面升级,覆盖AI计算系统、通用大模型、具身智能、安全可信和垂类行业应用五大领域,建立全景评估范式。司南已支持超200个大语言模型、150个多模态模型,并参与到国家标准的制定中。未来,司南将助力新技术在实际应用中达到预期标准,构建安全、可信、公平的人工智能生态体系。

关键观点总结

关键观点1: 大模型考生增多,需要更专业、公正、开放的统一考试来衡量能力。

大模型的考生数量越来越多并且能力也在不断提高,这需要更专业的评测体系来衡量其表现。新的评测体系将不仅关注模型性能和技术本身的发展情况,也是连接技术与应用场景以及跨领域合作的重要桥梁。

关键观点2: 司南评测体系的全面升级涵盖了五大领域的能力评估矩阵。

上海人工智能实验室对司南评测体系进行了全面升级,从原有的通用大模型能力评测扩展到了五大领域的能力评估矩阵,包括AI计算系统、具身智能、安全可信和垂类行业应用等。这次升级构建起了一个全景评估范式,覆盖从底层算力到上层智能的全链路关键能力。

关键观点3: 司南评测体系为行业提供一站式全景化的能力刻度。

司南评测体系提供一站式全景化的能力刻度,能够支撑大规模部署和可信应用。上海AI实验室已经构建了系统化、标准化和开放性的评测体系,该体系不仅是衡量模型技术水位的试金石,更是打通研发、应用与监管的重要基础设施。

关键观点4: 司南增加了对“垂类应用评测模块”的支持。

司南新增了垂类应用评测模块,其中包括AI+金融和AI+医疗的评测。金融和医疗领域的特殊性对AI技术的要求很高,因此新的评测方式需要满足这些领域的安全性和专业性需求。

关键观点5: 司南评测体系已对实际应用场景产生影响。

司南评测体系已经对实际应用场景产生了影响。通过科学的评测方法,它能够助力新技术在实际应用中达到预期标准。同时,通过评测识别出当前技术的不足并提供优化方向,进而构建安全、可信、公平的人工智能生态体系。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照