专栏名称: 声网

声网Agora是全球领先的高清实时通话云服务提供商，由赵斌先生于2014年初创立。公司专注于移动端，主营业务涉及端到端的语音和视频通话服务，可应用于企业通讯、社交应用、在线教育、网络游戏、远程医疗、互联网O2O等行业。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

RTE &对话式 AI 产品专场：打造对话式 AI 全栈产品矩阵重构人机交互体验

声网 · 公众号 · AI媒体科技自媒体 · 2025-11-11 17:36

主要观点总结

在RTE2025实时互联网大会上，声网携手多个生态伙伴在对话式AI领域带来精彩分享。声网介绍了其对话式AI全栈产品矩阵的构建和发展，以及不同版本的产品升级实践。其他公司如MiniMax、科大讯飞和商汤科技也分享了他们在语音大模型、对话式AI技术、语音识别技术和电商直播应用等方面的探索和实践。

声网展示了其对话式AI产品的发展历程，从模型选择到测试、搭建、发布和上线生产的完整流程。最新推出的对话式AI Studio1.0为开发者提供了可视化编排与生产级模板，即使不懂代码和音频参数，也能快速做出智能体。

声网的对话式AI引擎经历了多次迭代，在延迟、打断速度、噪声环境下的人声精准锁定等核心指标上表现优异。最新版本的引擎支持预注册声纹识别，拓展ASR和TTS供应商，支持第三方自研接入，进一步推动对话式AI从“能用”走向“好用”。

MiniMax分享了其在语音大模型与对话式AI融合领域的实践成果。他们推出了M2模型，支持并行工具调用，提高了回答精准度。同时，他们还优化了延迟问题，通过模型架构重构和推理优化，将语音生成的延迟压缩至250毫秒。此外，他们还支持多种语言和情绪的输出，以及与硬件客户的个性化需求相匹配。

科大讯飞在语音识别技术方面积累了丰富的经验，实现了端到端的交互技术和全双工对话体验。他们的星火语音识别大模型支持多方言和多语种的精准识别，同时还实现了多模态降噪和交互。最后还指出人机交互正在从以机器为中心向以人为中心转变，未来将朝着更深层的感知和更多元的交互模型发展。

商汤科技在视觉领域拥有深厚的技术底蕴，赋能多领域。在电商直播领域，他们推出了AI数字人，通过图片数字人和图生视频技术，实现了高效的电商直播。这些技术不仅提升了直播的开播时长和ROI，还支持多语种，助力跨境出海。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博