专栏名称: 声网
声网Agora是全球领先的高清实时通话云服务提供商,由赵斌先生于2014年初创立。公司专注于移动端,主营业务涉及端到端的语音和视频通话服务,可应用于企业通讯、社交应用、在线教育、网络游戏、远程医疗、互联网O2O等行业。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  声网

RTE &对话式 AI 产品专场:打造对话式 AI 全栈产品矩阵 重构人机交互体验

声网  · 公众号  · AI媒体 科技自媒体  · 2025-11-11 17:36
    

主要观点总结

在RTE2025实时互联网大会上,声网携手多个生态伙伴在对话式AI领域带来精彩分享。声网介绍了其对话式AI全栈产品矩阵的构建和发展,以及不同版本的产品升级实践。其他公司如MiniMax、科大讯飞和商汤科技也分享了他们在语音大模型、对话式AI技术、语音识别技术和电商直播应用等方面的探索和实践。

关键观点总结

关键观点1: 声网在对话式AI领域的产品发展

声网展示了其对话式AI产品的发展历程,从模型选择到测试、搭建、发布和上线生产的完整流程。最新推出的对话式AI Studio1.0为开发者提供了可视化编排与生产级模板,即使不懂代码和音频参数,也能快速做出智能体。

关键观点2: 声网对话式AI引擎的升级实践

声网的对话式AI引擎经历了多次迭代,在延迟、打断速度、噪声环境下的人声精准锁定等核心指标上表现优异。最新版本的引擎支持预注册声纹识别,拓展ASR和TTS供应商,支持第三方自研接入,进一步推动对话式AI从“能用”走向“好用”。

关键观点3: MiniMax在语音大模型与对话式AI融合的探索

MiniMax分享了其在语音大模型与对话式AI融合领域的实践成果。他们推出了M2模型,支持并行工具调用,提高了回答精准度。同时,他们还优化了延迟问题,通过模型架构重构和推理优化,将语音生成的延迟压缩至250毫秒。此外,他们还支持多种语言和情绪的输出,以及与硬件客户的个性化需求相匹配。

关键观点4: 科大讯飞的语音识别技术发展

科大讯飞在语音识别技术方面积累了丰富的经验,实现了端到端的交互技术和全双工对话体验。他们的星火语音识别大模型支持多方言和多语种的精准识别,同时还实现了多模态降噪和交互。最后还指出人机交互正在从以机器为中心向以人为中心转变,未来将朝着更深层的感知和更多元的交互模型发展。

关键观点5: 商汤科技在电商直播场景的应用

商汤科技在视觉领域拥有深厚的技术底蕴,赋能多领域。在电商直播领域,他们推出了AI数字人,通过图片数字人和图生视频技术,实现了高效的电商直播。这些技术不仅提升了直播的开播时长和ROI,还支持多语种,助力跨境出海。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照