专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

上海交大/上海AI Lab翟广涛：当评测不再重要，AGI就实现了

机器之心 · 公众号 · AI · 2025-07-15 11:20

主要观点总结

本文介绍了上海交通大学教授、上海人工智能实验室双聘研究员翟广涛对AI评测体系的观点。他认为完美的AI评测体系等同于通用人工智能，并提出当前AI评测体系存在数据污染、原子化能力评测的局限性等问题。翟广涛强调评测的核心应是模型在多大程度上提升人类完成任务的效率和体验，并提出回归‘以人为本’的坐标系。他带领的上海人工智能实验室大模型开源评测司南团队提出了一个由三大支柱构成的评测框架，并设计了技术路径和解决方案来应对AI评测中的问题。最终，他认为当评测变得不再重要时，AGI可能才真正到来。

关键观点总结

关键观点1: 翟广涛认为完美的AI评测体系等同于通用人工智能。

他认为目前的AI评测体系存在数据污染和原子化能力评测的局限性等问题。

关键观点2: 翟广涛强调评测的核心应是模型在多大程度上提升人类完成任务的效率和体验。

他提出了回归‘以人为本’的坐标系来解决当前评测的问题。

关键观点3: 上海人工智能实验室大模型开源评测司南团队提出了一个由三大支柱构成的评测框架。

该框架包括信息质量、问题解决能力和交互体验三个方面。

关键观点4: 司南团队设计了技术路径和解决方案来应对AI评测中的问题。

他们提出了演进的、动态的、粒度的、生态的技术路径，并投入精力建立了一个规模超十万道题的高质量内部题库。

关键观点5: 翟广涛认为当评测变得不再重要时，AGI可能才真正到来。

他认为构建终极评测体系的努力本身就是通往AGI的最重要路径。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

量子位 · 字节Seed数学新模型，SOTA了

昨天

爱可可-爱生活 · 本文创新性地将检索增强生成（RAG）范式应用于机器人扩散策略，通-20250804055620

昨天

爱可可-爱生活 · 72+ 款 AI 工具，助你用几分钟完成数月工作，效率飞跃式提升-20250803215216

昨天

人工智能产业链union · 【AI】只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线|ACL25Oral

2 天前

爱可可-爱生活 · 掌握Prompt工程的终极指南：打造高效、精准且具上下文感知的语-20250802203445

3 天前

器械之家 · 万亿央企原总经理突发疾病去世，享年69岁

12 月前

华见 · 王慧玲也被封号了

7 月前

新型智慧城市资讯 · 估投3.86亿：广元市新型智慧城市

4 月前

广东生态环境 · 名单公布！这一产业园区入选→

1 月前

小米手机 · #小米MIXFlip2#随身拍套装，随时拍，超好拍！一体式设计，-20250705120501

1 月前