专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20251209

腾讯研究院  · 公众号  · 科技媒体  · 2025-12-09 00:01
    

主要观点总结

本文主要报道了微软开源VibeVoice-Realtime-0.5B等七个与人工智能相关的新闻,包括模型开源、功能升级、应用场景等。同时,也报道了普渡发布最新行业级自主导航四足机器人PUDU D5系列和Karpathy关于AI提示词策略的观点。

关键观点总结

关键观点1: 微软开源VibeVoice-Realtime-0.5B模型,支持多角色自然对话,适用于AI助手、会议记录、播客生成等场景。

该模型首包延迟仅300毫秒,支持边输入文本边朗读,具备情绪识别与表达能力,长时上下文记忆可达90分钟。

关键观点2: 智谱GLM-4.6V系列多模态大模型上线,包括基础版和轻量版,训练时上下文窗口提升至128k tokens,相较GLM-4.5V降价50%。

该模型首次在架构中融入Function Call能力,实现多模态工具调用,打通视觉感知到可执行行动的链路。

关键观点3: 可灵O1推出“主体库”功能,支持上传多角度参考图构建专属角色、道具和场景,新增AI补图功能,并实现Prompt、参考图、主体等所有输入与终极成品的Before & After高效同框对比。

该功能助力作品成为爆款。

关键观点4: 美团发布LongCat-Image模型,在图像编辑基准测试中达到开源SOTA水平。

该模型采用文生图与图像编辑同源架构设计及渐进式学习策略,在中文文字生成方面表现领先。

关键观点5: 腾讯自研大模型混元2.0正式发布,采用MoE架构,支持256K超长上下文窗口,推理能力领先。

DeepSeek V3.2同步接入腾讯生态内,提升推理表现与长文本生成质量。

关键观点6: 阿里通义团队发布Qwen3-TTS全新文本转语音模型,提供高保真角色化音色,支持多种语言和方言。

该模型保留真实语调与地域口音,在韵律控制上有明显提升。

关键观点7: 英伟达4B小模型在ARC-AGI 2测试中击败GPT-5 Pro登顶榜首。

该模型采用零预训练深度学习方法,通过大规模合成高质量数据和测试时微调技术快速适应任务。

关键观点8: 普渡发布行业级自主导航四足机器人PUDU D5系列,提供轮足/点足两个版本,支持部署端侧大模型。

该机器人具备精准定位、环境重建、高负载、长续航等多项功能,适用于多种场景应用。

关键观点9: Karpathy强调大语言模型不应被视为实体,而应采用更有效的提问策略来利用LLM引导或模拟多种视角。

他提醒注意模型的“你”是设计、工程化并硬加上去的,不是随时间构建的涌现性“心智”。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照