今天看啥  ›  专栏  ›  arXiv每日学术速递

音频处理学术速递[7.24]

arXiv每日学术速递  · 公众号  · AI媒体  · 2025-07-24 13:21
    

主要观点总结

本文介绍了各种学术文章的概要和关键点。

关键观点总结

关键观点1: 使用具有非并行数据的自监督离散令牌进行口音规范化

本文提出了一种使用自监督离散令牌和非并行训练数据的新型管道,用于口音规范化。该系统从源语音中提取标记,通过专用模型转换它们,并使用流匹配合成输出。该方法表现出优越的性能,并验证了基于分词的方法的有效性。还开发了两种持续时间保存方法,适用于配音等应用。

关键观点2: 基于聚类的硬负采样方法用于监督对比说话人表示学习

本文提出了CHNS -基于聚类的硬负采样方法,专用于监督对比说话人表示学习。该方法聚类嵌入相似的扬声器,并调整批次组成,以获得最佳比例的硬和容易的负面对比损失计算。实验评估表明,CHNS优于基线监督对比方法,以及最先进的基于分类的方法,以多达18%的相对EER和minDCF的VoxCeleb数据集上使用两个轻量级模型架构的说话人验证。

关键观点3: 利用DSP推导的绝对音调的自监督语音音调估计

本文提出了基于自监督学习(SSL)的语音信号基音周期估计方法SLASH。该方法结合绝对音高值,通过梯度下降与目标和可微分DSP导出的频谱图之间的损失优化绝对音高。实验结果表明,该方法优于基线DSP和基于SSL的基音周期估计方法,归因于SSL和DSP的有效集成。

关键观点4: 持续时间预测对印度语言特定于说话者的TTC的影响

本文研究了时长预测对印度语言特定于说话者的语音合成(TTC)的影响。通过对非自回归连续归一化流(CNF)的语音模型进行训练,并评估多个持续时间预测策略,发现基于填充的预测器提高了某些语言的可理解性,而说话者提示的预测器更好地保留了其他语言的说话者特征。

关键观点5: 通过半监督机器学习增强肺部疾病诊断

本文使用MFCC+CNN的模型组合研究了半监督学习方法在肺音信号检测中的应用。通过引入半监督学习模块,如Mix Match,Co-Refinement和Co Refurbishing,提高了检测性能,同时减少了对手动注释的依赖。

关键观点6: 无音段的语音美

本文提出了基于自对准和无音段的语音美度评估方法。通过考虑目标音素的所有可能的对齐,该方法为音素级发音评估提供了有效的解决方案。

关键观点7: 从黑匣子到生物标志物:稀疏自动编码器用于解释帕金森病语音模型

本文应用稀疏自动编码器(SAE)来揭示基于语音的帕金森病检测系统的可解释的内部表示。通过引入新的基于掩码的激活,该方法创建稀疏的解纠缠字典表示,这些条目与帕金森病语音中的特征发音缺陷相关联。

关键观点8: 评估语音转文本x LLM x文本转语音组合在AI面试系统中的应用

本文使用超过300,000次的人工智能面试数据,对STT x LLM x TTS堆栈进行了大规模的实证比较。开发了一个自动化的评估框架,以评估会话质量,技术准确性和技能评估能力。

关键观点9: 牙买加方言音乐转录的稳健语音识别

本文采取以数据为中心的方法,通过策划超过40小时的手动转录的Patois音乐,来解决在牙买加方言音乐上表现不佳的语音识别系统的问题。

关键观点10: 语言对于通过言语早期检测帕金森病的作用

本文测试了具有不同数据类型和预训练目标的预训练模型,发现语言在帕金森病早期检测中起关键作用。

关键观点11: 音类识别的视听对比学习

本文提出了一个多模态深度学习框架,该框架结合了实时磁共振成像(rtMRI)和语音信号,对发音维度进行分类,并使用对比学习实现最先进的性能。

关键观点12: BoSS:超越语义的言语

本文介绍了口语交互系统能力水平(L1-L5),并提出超越语义语音(BoSS),以传达情感、语境,并修改或扩展意义,从而增强对交际意图和情景的理解。

关键观点13: Seed LiveInterpret 2.0:使用语音进行端到端同步语音翻译

本文介绍了Seed-LiveInterpret 2.0,这是一种端到端的SI模型,提供高保真,超低延迟的语音到语音生成,并具有语音克隆功能。

关键观点14: 音频源分离中的时间引导和迭代细化

本文引入了一种新的方法,该方法增强了事件检测和源分离阶段之间的协同作用,通过引入时间引导和迭代细化,实现了音频标记和源分离性能的显着改进。

关键观点15: 一个基于LLM的多语言语音识别系统,用于INTERSPEECH2025 MLC-SLM挑战

本文介绍了一个基于大型语言模型(LLM)的多语言语音识别系统,通过创新的编码器-适配器-LLM架构,在多语言会话场景中优化语音识别准确性。

关键观点16: 行业级CRM系统中增强型ASR模型的弱监督技术

本文提出了针对特定行业的ASR模型微调解决方案,显著提高了微调后的ASR模型在行业应用中的性能,并在实际行业应用中得到了应用。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照