专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

新智元 · 公众号 · AI · 2024-10-28 15:51

主要观点总结

智源研究院联合多所高校推出了小时级的超长视频理解大模型Video-XL，能够用一张80G显卡处理小时级视频。该模型借助语言模型的原生能力对长视觉序列进行压缩，实现了良好的泛化能力，并在多个主流长视频理解基准评测中排名第一。Video-XL有望在电影摘要、视频异常检测、广告植入检测等场景展现出广泛应用价值。

关键观点总结

关键观点1: Video-XL模型的特点

推出了小时级的超长视频理解大模型Video-XL；借助语言模型的原生能力对长视觉序列进行压缩；在多个主流长视频理解基准评测中排名第一；具有良好的泛化能力；可在电影摘要、视频异常检测、广告植入检测等场景广泛应用。

关键观点2: Video-XL模型的优势

仅需一块80G显卡即可处理小时级视频；在效率和性能之间实现了良好的平衡；保留了短视频理解的能力。

关键观点3: 模型结构

Video-XL整体模型结构和主流的MLLMs结构相似，由视觉编码器、视觉-语言映射器以及语言模型构成；针对多模态数据建立了一个统一的视觉编码机制。

关键观点4: 模型训练方式

Video-XL通过优化在压缩视觉信号下的生成质量进行训练；使用特殊的视觉摘要标记（VST）进行视觉上下文隐空间压缩；通过最小化自回归损失进行训练。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

赛博禅心 · Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

3 小时前

机器之心 · TRAE SOLO移动端上线，手机也能干活了，随时随地Vibe Working

12 小时前

新智元 · 突发，OpenAI总裁当庭「认罪」！自曝零元购300亿，马斯克这回真要赢了？

昨天

爱可可-爱生活 · 编程时经常需要打开编辑器、聊天工具、浏览器搜索资料，还得来回切换-20260505065110

昨天

人工智能学家 · 你的记忆是真实的吗？物理学家重新审视玻尔兹曼大脑悖论

2 天前

北方人才网 · 招聘丨一中心医院外包门诊协诊岗位招聘简章

1 年前

重庆之声 · 哇哦 | 重庆旅游预订热度持续升高听说，有人在拼假了

1 年前

乌鸦校尉 · 5折！！60%以上新疆生牛乳含量的冰淇淋，太美味啦

1 年前

量子位 · #新版iPad更像Mac了##iPadOS26窗口操作大升级#i-20250610023556

11 月前