专栏名称: AI新文
AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
目录
今天看啥  ›  专栏  ›  AI新文

语言与语音处理-论文12篇(2025年7月)

AI新文  · 公众号  ·  · 2025-07-29 07:00
    

主要观点总结

本文提供了多个关于语音处理、语音增强、语音生成和语音解码等领域的文章摘要。这些文章涉及不同的技术,包括基于序列到序列的语音转换、形态学感知跨语言嵌入、多模态情感分析、病理嗓音生成扩散模型、会话语音合成的说话风格推断、重放语音检测以及开放词汇声事件定位和检测等。

关键观点总结

关键观点1: AnyEnhance:一种具有即时引导和自我批评的语音增强统一生成模型

介绍了一种名为AnyEnhance的统一生成模型,用于处理语音和歌唱语音。该模型能够同时处理多种增强任务,包括去噪、超分辨率和目标说话人提取等。模型引入了快速引导机制和自我批评机制,提高了增强性能和音质。

关键观点2: 大语言模型中细粒度层次概念的理解和生成

探讨了大语言模型(LLM)的概念知识测试,特别是细粒度的概念关系。设计了两个探测任务来评估LLM的概念理解和生成能力,并使用新的度量标准来量化概念语义距离。实验表明,最新的语言模型在处理细粒度概念方面表现出一致的能力。

关键观点3: 基于序列语音转换的喉电语音增强预训练和微调技术

描述了一种基于序列到序列(seq2seq)语音转换的喉电(EL)语音增强预训练和微调技术。该技术旨在解决电子喉部(EL)语音转换中的两个问题:低资源训练数据和传输学习过程中的巨大域移位间隙。

关键观点4: 分离节段和韵律因素对非母语语音可理解性的影响

研究了分段和韵律特征对非母语语音感知可理解性的个人贡献。实验表明,与先前对非母语语音的研究相反,语段特征比韵律对可理解性的影响更大。

关键观点5: MACE:基于对比学习的形态学感知跨语言嵌入

介绍了一种新的对比学习方法MACE,该方法利用语言的丰富形态学特性进行跨语言单词嵌入,而无需分割词根和后缀/前缀。

关键观点6: CAETFN:用于多模态情感分析的上下文自适应增强文本引导融合网络

提出了一种上下文自适应增强的文本引导融合网络CAETFN,用于多模态情感分析。该网络充分利用文本模态信息,减少冗余并利用情感相关信息,同时融合非言语情感上下文信息。

关键观点7: 基于Hilbert-Huang重构的病理嗓音生成扩散模型

提出了一种基于Hilbert-Huang重构的扩散模型,用于病理嗓音生成。该模型以病理语音样本的基音为输入,生成具有真实病理声学特征的新样本,并采用扩散模型和Transformer模型作为生成框架。

关键观点8: 通过学习语境依赖推断会话语音合成的说话风格

研究了会话语音合成中的说话风格推断。提出了一种基于上下文建模技术的方法,通过对话中的文本和声学特征来捕获说话人之间和内部的依赖性,并推断适当的说话风格。

关键观点9: 用于重放语音检测的谱箱β阶能量加权调制

介绍了一种β阶能量加权调制方法,用于重放语音检测。该方法在短时帧持续时间内将频谱能量调制到频谱箱中,并强调了重放语音和真实语音之间的短时能量分布差异。

关键观点10:




免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照