ICML2025｜清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

机器之心 · 公众号 · AI · 2025-07-23 09:04

主要观点总结

本文介绍了清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队与多家单位合作完成的研究成果。团队发布了全新的医学自然语言处理评测框架MultiCogEval，该框架首次从医学知识掌握到临床问题解决的“全周期”进行大语言模型医学能力评测。研究发现，当前大模型在医疗领域的应用仍存在诸多挑战，特别是在真实临床场景中的表现不理想。研究提出了多认知层次医学能力评测框架，并进行了实验验证，发现模型在不同认知层次上的能力差异，并指出了现有模型在主动规划、获取决策信息进行推理方面的不足。研究为后续的医学大模型研发与评测奠定了基础。

关键观点总结

关键观点1: 研究背景

介绍清华大学电子系医工交叉平台的研究团队以及他们与北邮、科大讯飞等单位的合作。提到大语言模型在医疗行业的应用及挑战。

关键观点2: MultiCogEval框架的提出

为解决大语言模型在真实临床场景中的应用问题，研究团队提出了多认知层次医学能力评测框架MultiCogEval，覆盖不同认知层次的医学任务。

关键观点3: 框架的实验结果

一系列知名大模型在MultiCogEval框架上的评测结果显示，模型在基础任务上表现良好，但在中高阶任务上表现不佳，特别是在场景问题求解方面。

关键观点4: 医学领域微调（SFT）的影响

研究发现医学领域微调可以提升大模型的临床能力，但在高阶任务上的提升有限。

关键观点5: 推理时扩展的效果

推理增强模型在所有认知层级上的性能优于指令微调模型，但在高阶任务上仍有待进一步提升。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博