专栏名称: 智源社区

【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区，致力于促进 AI 交流。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

智源研究院推出全球首个包含文生视频的模型对战评测服务

智源社区 · 公众号 · 互联网短视频科技自媒体 · 2024-09-05 17:18

主要观点总结

智源研究院推出了全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场。该服务覆盖国内外约40款大模型，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。秉承科学、权威、公正、开放的原则，角斗场采取匿名机制进行模型对战评测，并引入了主观倾向阶梯评分体系，能够更细致地评估模型生成内容的差异。用户可以通过移动端或网页端访问，进行多轮交流和提问，最终形成角斗场榜单。该服务由智源研究院持续迭代和优化，未来会将全链路数据进行开源，以促进大模型评测生态的发展。

关键观点总结

关键观点1: 全球首个包含文生视频的模型对战评测服务

智源研究院推出的FlagEval大模型角斗场是全球首个包含文生视频的面向用户开放的模型对战评测服务，覆盖国内外约40款大模型。

关键观点2: 支持多种任务的自定义在线或离线盲测

FlagEval大模型角斗场支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测，为用户提供高效的模型对战评测体验。

关键观点3: 采用匿名机制和主观倾向阶梯评分体系

角斗场的评测过程采取匿名机制，并引入了主观倾向阶梯评分体系，能够更细致地评估模型生成内容的差异，精确揭示模型性能差异。

关键观点4: 移动端访问入口和人性化的打分展示形式

除网页端外，FlagEval大模型角斗场还率先开放了移动端访问入口，并对打分展示形式进行了人性化设计，以降低用户认知负荷增加。

关键观点5: 持续迭代和优化，未来开源全链路数据

智源研究院持续迭代和优化FlagEval大模型评测体系，未来会对模型对战评测的全链路数据进行开源，以促进大模型评测生态的发展。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

天玑-无极领域 · #是妈妈也是她# 养孩子很辛苦，母爱很伟大。养孩子也有很多欢乐。-20260510213646

17 小时前

雷递 · 伯希和冲刺港股：年营收28亿净利率降3.3个百分点腾讯与创新工场是股东

昨天

笔记侠 · 达利欧对美国发出预警：未来5年，将迎来历史性变局！

昨天

阿枫科技 · GitHub上狂揽3.4万Star！开源版Claude Design来了！

2 天前

抽水蓄能与储能技术 · 重庆奉节菜籽坝抽水蓄能电站总进度计划专题报告及招标设计报告通过审查评审

1 年前

科研云 · 【今天9:30】Veterinary Sciences携手中国兽医协会马兽医专科委员会共同举办线上作者培训会

1 年前

最高人民法院 · 如何整治消费市场新型“问题”？人民法院“对症下药”

1 年前

扑克投资家 · 【开始报名】大宗商品基本面交易体系研修→助你深度解析行业发展根本逻辑

1 年前

汤圆学英语 · 华尔街日报英语播客｜对于当下就业市场而言，你的薪水是否过高？｜ WSJ Your Money Briefing Podcast

11 月前