专栏名称: AI新文
AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  AI新文

NeurIPS 2025 | 可解释-相关论文12篇

AI新文  · 公众号  ·  · 2025-12-08 07:00
    

主要观点总结

本文梳理了近期关于模型可解释性的文章,包括CHiQPM、层间模态分解、预测编码增强元强化学习等。这些文章从不同角度探讨了模型的可解释性,包括全局和局部可解释性、模型的内部机制等。同时,文章还介绍了各种模型的可解释性评估方法和案例分析。

关键观点总结

关键观点1: CHiQPM提出校准分层QPM,提供全面的全局和局部可解释性,为人类与AI的互补铺平了道路。

CHiQPM通过对比解释大多数类别而实现了优越的全局可解释性,并提供了新颖的层次化解释,这些解释更类似于人类的推理方式。全面评估表明,CHiQPM作为一个点预测器实现了最先进的准确率,同时保持了可解释性。

关键观点2: 层间模态分解(LMD)是一种事后解释性方法,能够分离预训练融合模型所有层中的特定模态信息。

LMD是首个在自动驾驶传感器融合系统中将感知模型的预测归因于各个输入模态的方法。其有效性通过基于结构扰动的度量和模态分解的视觉分解得到验证。

关键观点3: 预测编码增强元强化学习通过自监督预测编码模块促进贝叶斯最优表示的学习。

在状态机模拟中,具有预测模块的元强化学习能够生成更可解释的表示,这些表示更好地近似贝叶斯最优信念状态。在需要主动寻求信息的艰巨任务中,只有具有预测模块的元强化学习成功地学习了最优表示和策略。

关键观点4: GnnXemplar通过识别代表性节点(示例)并通过自然语言规则解释预测,提高了全局GNN的可解释性。

GnnXemplar在GNN嵌入空间中采用贪婪近似算法选择代表性节点,并通过大型语言模型(LLMs)的自我优化提示策略推导出可解释的规则。

关键观点5: FireGNN将可训练的模糊规则集成到GNN中,用于医学图像分类的可解释性。

FireGNN使用可学习的模糊规则增强模型,这些规则嵌入了图神经网络的拓扑描述符。在五个MedMNIST基准和合成数据集MorphoMNIST上的实验表明,该模型表现出色,同时生成了可解释的基于规则的解释。

关键观点6: 关于非线性表示困境的研究表明,因果抽象不足以实现机制可解释性。

该研究批判性地审视了因果抽象的概念,并通过实证证据表明即使模型无法解决实际任务,也有可能完美地将模型映射到算法上。这引发了关于非线性表示困境的讨论,即如何在平衡映射的复杂性和准确性之间找到原则性的方法。

关键观点7: 迈向可解释性而不牺牲的研究使用解码器混合的忠实密集层分解来实现。

该研究引入了解码器混合(MxDs),这是一种扩展多层感知机(MLPs)的方法,通过预训练的密集层扩展成数万个专门化的子层来实现可解释的近似值。实验表明,MxD在语言模型中显著优于最先进的方法,在稀疏性-准确性前沿上表现出良好的性能。

关键观点8: 广义归纳头模型(GIM)通过结合精确n-gram匹配和基于神经相似度度量的模糊匹配来提高下一个词预测的可解释性。

GIM是一个基于检索的模块,用于在输入上下文中识别相似序列。实验表明,GIM在语言建模和fMRI响应预测中提高了可解释性和准确性,并提供了关于大脑语言选择性的见解。

关键观点9: 通过语义聚类增强深度强化学习的可解释性。

该研究探索了深度强化学习(DRL)的语义聚类特性,以提高其可解释性。通过融合一个新颖的语义聚类模块,该架构解决了t-SNE的不稳定性和先前语义分析方法中的大量手动标注需求。实验验证了该模块的有效性,并展示了其揭示DRL内部语义聚类属性的能力。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照