专栏名称: AI新文
AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
目录
今天看啥  ›  专栏  ›  AI新文

ACL 2025 | 可解释性-相关论文12篇

AI新文  · 公众号  ·  · 2025-07-30 07:00
    

主要观点总结

本文综述了多篇关于可解释图像分类、多LLM路由、政治偏见生成框架、文本嵌入、安全对机制推理、情感推理的机械可解释性、自动化解释性、推理电路等方面的研究论文。

关键观点总结

关键观点1: 增强可解释图像分类

通过LLM智能体和条件概念瓶颈模型,建立更可解释的图像分类过程。解决最佳概念数量问题,使用动态智能体方法和条件概念瓶颈模型(CoCoBMs)优化概念数量并实现充分和简洁覆盖。

关键观点2: 有效且可解释的多LLM路由

利用项目反应理论(IRT)提出IRT路由器,这是一个多LLM路由框架,可以有效地将用户查询路由到最合适的LLM。解决了强大模型与小型模型之间的性能和成本权衡问题。

关键观点3: 政治偏见生成框架的可解释性

引入PRISM框架,旨在产生可解释的政治偏见eMeddings。包括争议主题偏见指标挖掘和交叉编码器政治偏见嵌入两个阶段。

关键观点4: 低维密集可解释的文本嵌入

提出具有相对表示的低维密集可解释文本嵌入方法,旨在提高语义文本表示的可解释性。

关键观点5: 推理增强的可解释LLM安全微调

为解决LLM易受攻击的问题,提出使用推理增强微调来提高LLM的安全性并增强其可解释性。

关键观点6: 情感推理的机械可解释性

研究大语言模型中情感推理的机械可解释性,通过认知评估理论来评估LLM如何处理情绪刺激。

关键观点7:

通过使用输出为中心的特征描述方法来自动生成特征描述,更好地捕获特征对模型输出的因果影响。

关键观点8:

介绍了一种通过自动化可模拟性测量概念解释的评估框架,使用LLM作为模拟器来近似评估。

关键观点9:


关键观点10:




免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照