专栏名称: 字节跳动Seed

字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI infra、下一代AI交互等。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

Seed 端到端同声传译大模型发布：准确率接近真人，3s 延迟，实时声音复刻

字节跳动Seed · 公众号 · 互联网短视频科技自媒体 · 2025-07-24 16:39

主要观点总结

字节跳动Seed团队发布了端到端同声传译模型Seed LiveInterpret 2.0，它实现了低延迟的“边听边说”翻译能力，支持中英互译，并具备零样本声音复刻技术。该模型具备精准语音理解能力，可在复杂场景中实现高质量翻译，接近真人专业同传水平。

Seed LiveInterpret 2.0采用全双工端到端语音生成理解框架，支持实时处理多人语音输入，实现低延迟翻译。具备接近真人同传的翻译准确率，精准的语音理解能力保障了翻译准确度。相比传统机器同传系统，具备更低的延迟、更高的翻译质量和更自然的音色复刻能力。

Seed LiveInterpret 2.0技术报告已公布，模型基于火山引擎对外开放，可供体验。Ola Friend耳机也将在8月底接入该模型，成为首个支持该模型的智能硬件设备。

Seed LiveInterpret 2.0依靠端到端语音理解生成技术，通过CT（Continual Training）和SFT（Supervised Fine-tuning）等过程提升模型的语音理解准确度以及语音复刻等生成能力。采用强化学习方法进一步降低模型语音输出的延迟，提升翻译效果。

Seed LiveInterpret 2.0适用于多种场景，如会议、演讲等。团队通过专业同传译者团队对模型进行人工评测，结果显示其翻译准确率、延迟等方面表现优异，接近真人同声传译水平。

团队认识到数据对模型训练的重要性，并指出模型仍存在拓展空间，如支持更多语种、提高声音复刻的稳定性、增强语音表现力和情绪复刻能力，以及在极复杂情况下的翻译准确性等。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博