专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  自动驾驶之心

小米7篇论文入选顶会AAAI,前沿领域全覆盖!

自动驾驶之心  · 公众号  · 科技媒体  · 2025-12-22 11:23
    

主要观点总结

小米在AAAI会议上发表了七篇最新研究成果,这些论文涉及人工智能的多个领域,包括音效编辑、语音问答、文本检索、长语音处理、语音检索器、具身智能导航和自动驾驶等。文章对每篇论文进行了简要介绍和总结。

关键观点总结

关键观点1: 小米共有七篇论文入选AAAI 2026

这些论文覆盖AI的多个领域,包括具身智能、大规模文本处理、自然语言处理、语音技术等方面。论文代表了小米在大模型与具身智能上的阶段性成果,也展示了其对科技战略的注脚。

关键观点2: AutoLink: 自主式Agent框架用于解决大规模text-to-SQL问题

小米提出的AutoLink方法通过让模型像代理一样逐步探索数据库结构,实现了在Bird-Dev和Spider-2.0-Lite数据集上的优异表现。

关键观点3: SpecFormer: 结合单向和双向注意力实现高速解码

针对大模型推理中的效率问题,小米提出了SpecFormer架构,实现了无需复杂Draft树即可实现稳定加速的效果。

关键观点4: CLRSM: 解决长语音处理难题

针对语音问答中的长语音处理问题,小米提出的CLRSM方法通过引入类似RAG的思路,实现了在信息稀疏、无关片段多的情况下保持模型高效工作的目标。

关键观点5: CLSR解决语音检索难题

CLSR通过端到端的retriever直接从长语音中抽取最相关的片段,解决了传统语音检索器表现不佳的问题。

关键观点6: AV-Edit改变音效编辑方式

AV-Edit通过结合视觉、音频和文本语义完成精细化的声效编辑,实现了音质自然、修改准确的效果。

关键观点7: Cook and Clean Together: 具身智能任务调度

为解决机器人在真实世界执行任务时的调度问题,小米提出了ORS3D任务定义和GRANT多模态大模型,使机器人具备了更高的效率和策略性。

关键观点8: SpNav框架实现空间导航与语言理解结合

为解决具身智能导航中的空间表达理解问题,小米提出了SpNav框架,结合视觉语言模型解析指令和地图执行精确的导航规划。

关键观点9: VILTA提升自动驾驶策略鲁棒性

针对自动驾驶在长尾场景中的数据覆盖和训练问题,小米提出的VILTA对抗性轨迹生成方法显著提高了自动驾驶策略的鲁棒性。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照