专栏名称: AI新文

AI顶刊顶会新论文一号通，每天推送，助您时刻站在AI研究最前沿。包括：人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

语言与语音处理-论文12篇（2025年7月）

AI新文 · 公众号 · · 2025-07-29 07:00

主要观点总结

本文提供了多个关于语音处理、语音增强、语音生成和语音解码等领域的文章摘要。这些文章涉及不同的技术，包括基于序列到序列的语音转换、形态学感知跨语言嵌入、多模态情感分析、病理嗓音生成扩散模型、会话语音合成的说话风格推断、重放语音检测以及开放词汇声事件定位和检测等。

介绍了一种名为AnyEnhance的统一生成模型，用于处理语音和歌唱语音。该模型能够同时处理多种增强任务，包括去噪、超分辨率和目标说话人提取等。模型引入了快速引导机制和自我批评机制，提高了增强性能和音质。

探讨了大语言模型（LLM）的概念知识测试，特别是细粒度的概念关系。设计了两个探测任务来评估LLM的概念理解和生成能力，并使用新的度量标准来量化概念语义距离。实验表明，最新的语言模型在处理细粒度概念方面表现出一致的能力。

描述了一种基于序列到序列（seq2seq）语音转换的喉电（EL）语音增强预训练和微调技术。该技术旨在解决电子喉部（EL）语音转换中的两个问题：低资源训练数据和传输学习过程中的巨大域移位间隙。

研究了分段和韵律特征对非母语语音感知可理解性的个人贡献。实验表明，与先前对非母语语音的研究相反，语段特征比韵律对可理解性的影响更大。

介绍了一种新的对比学习方法MACE，该方法利用语言的丰富形态学特性进行跨语言单词嵌入，而无需分割词根和后缀/前缀。

提出了一种上下文自适应增强的文本引导融合网络CAETFN，用于多模态情感分析。该网络充分利用文本模态信息，减少冗余并利用情感相关信息，同时融合非言语情感上下文信息。

提出了一种基于Hilbert-Huang重构的扩散模型，用于病理嗓音生成。该模型以病理语音样本的基音为输入，生成具有真实病理声学特征的新样本，并采用扩散模型和Transformer模型作为生成框架。

研究了会话语音合成中的说话风格推断。提出了一种基于上下文建模技术的方法，通过对话中的文本和声学特征来捕获说话人之间和内部的依赖性，并推断适当的说话风格。

介绍了一种β阶能量加权调制方法，用于重放语音检测。该方法在短时帧持续时间内将频谱能量调制到频谱箱中，并强调了重放语音和真实语音之间的短时能量分布差异。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博