今天看啥  ›  专栏  ›  刘聪NLP

QVQ-72B,如期而至!继QWQ后,通义千问又开源视觉推理大模型!

刘聪NLP  · 公众号  · 科技自媒体  · 2024-12-25 08:00
    

主要观点总结

本文介绍了千问团队新开源的视觉推理大模型QVQ,基于Qwen2-VL-72B模型进一步训练得来。文章提到了QVQ的参数量对模型性能的影响,以及在MMMU榜单上的表现。同时,文章也指出了QVQ存在的一些问题,包括语言混乱、循环推理、安全性问题等。最后,文章给出了使用QVQ的代码示例,包括模型的加载、处理以及推理过程。

关键观点总结

关键观点1: 千问团队开源了新的视觉推理大模型QVQ。

QVQ是基于Qwen2-VL-72B模型进一步训练得来的,参数量对模型性能有重要影响。

关键观点2: QVQ在MMMU榜单上的表现良好。

相较于Qwen2-VL-72B模型,QVQ在某些方面取得了更好的效果。

关键观点3: QVQ存在一些问题。

最明显的问题是中英文夹杂的语言混乱现象,还有模型容易陷入循环推理和安全性问题等。

关键观点4: 给出了使用QVQ的代码示例。

通过示例代码展示了如何加载模型、处理输入以及进行推理。

关键观点5: 呼吁读者关注公众号并支持。

鼓励读者点赞、在看、关注公众号「NLP工作站」,并加入交流群。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照