可解释人工智能中的概念瓶颈模型如何推动可解释决策进展？

摘要：深度神经网络虽然表现出优异的性能，但其不透明性限制了其在需要透明度和人工监管的高风险领域中的应用。概念瓶颈模型(Concept Bottleneck Models, CBMs)通过引入一个人类可理解的概念层来连接输入与决策，从而解决了这一差

深度神经网络虽然表现出优异的性能，但其不透明性限制了其在需要透明度和人工监管的高风险领域中的应用。概念瓶颈模型(Concept Bottleneck Models, CBMs)通过引入一个人类可理解的概念层来连接输入与决策，从而解决了这一差距，实现了语义解释和测试时干预。本综述从四个维度提供了一个统一的CBMs概览：概念获取、基于概念的决策制定、概念干预和概念评估。我们总结了概念构建的演变过程，从人工标注到基于词典的挖掘、大语言模型(LLM)/视觉语言模型(VLM）引导的生成，以及通过原型和扩散模型实现的视觉关联发现；回顾了超越严格瓶颈的新兴CBM架构；并整合了强调忠实度、稀疏性和可干预性的评估与干预协议，这些对医疗保健等高风险领域尤为重要。我们综合了零散的文献，并勾勒了基于概念的可解释决策面临的关键挑战和未来方向。 @article{Wang2026CBMSurvey, title = {Concept Bottleneck Models for Explainable Decision Making: A Survey of Progress, Taxonomy, and Future Directions}, author = {Wang, Chunjiang and Li, Fan and Hu, Wenbo and Yan, Rui and Zhang, Kun and Zhou, Shaohua Kevin}, journal = {ResearchGate Preprint}, year = {2026}, doi = {10.13140/RG.2.2.30356.16002}, url = {https://www.researchgate.net/publication/399898851_Concept_Bottleneck_Models_for_Explainable_Decision_Making_A_Survey_of_Progress_Taxonomy_and_Future_Directions} } This blog is from kkzhang at https://www.cnblogs.com/lemonzhang/p/19592426. 1 引言深度神经网络在视觉、语言和多模态学习方面取得了强大的性能，使其在医疗保健[1]、医学[2]和金融[3]等现实世界中得到广泛采用。然而，它们的决策过程往往是不透明的，这在需要信任、问责制和人类监督的高风险环境中造成了风险[4]。这种性能与可解释性之间的差距推动了可解释AI (XAI)的发展，旨在使模型的推理过程对人类而言是可理解、可验证和可修正的。概念瓶颈模型(CBMs)已成为解决这一挑战的一个原则性且有影响力的范式[5]。CBMs不是直接将输入映射到输出，而是通过在输入和决策之间引入一个人类可理解的中间概念层，显式地对预测过程进行因式分解。这种结构化的分解实现了语义解释，便于专家检查中间推理过程，并通过概念修正支持测试时干预。这些特性将CBMs与事后解释技术[6]区分开来，并将其定位为可解释和可控决策的统一框架。早期的概念瓶颈模型依赖于手动定义和标注的概念（例如视觉属性或临床发现）来提供透明的中间接口，但受到标注成本、覆盖范围不全和标签噪声的限制[5]。最近的进展可以组织为基于概念推理的四个阶段：概念获取正从人工策展转向可扩展的词典挖掘、LLM/VLM引导的生成，以及通过原型或扩散模型实现的视觉接地发现，这些都得益于大规模基础模型[7, 8, 9]；基于概念的决策正从严格的瓶颈向软性、混合、概率和基于能量的设计演变，这些设计在保留概念接口的同时提高了预测能力[10, 11, 12, 13]；概念干预越来越多地支持结构化和感知依赖关系的修正，以便通过概念层更好地传播人类反馈[14, 15]；概念评估正从准确性扩展到以可解释性为中心的指标（例如忠实度、干预下的一致性、对噪声或缺失概念的鲁棒性），但在视觉接地、语义稳定性和与人类推理对齐方面仍面临挑战[8]。尽管进展迅速，但CBM文献仍然是碎片化的。现有的综述[16]和评论通常侧重于属性学习、基于原型的解释或一般的可解释性方法，但它们并未捕捉到CBMs作为涵盖概念获取、决策架构、干预机制和评估协议的综合框架的更广泛演变。特别是，CBMs与基础模型、可编辑学习和多模态交互的近期融合尚未得到系统性的综合。本综述的主要贡献总结如下： (1) 提出了涵盖概念获取、决策、干预和评估的CBMs统一分类法。 (2) 系统回顾了概念构建方法，从人工标注到LLM引导和基于原型的发现。

可解释人工智能中的概念瓶颈模型如何推动可解释决策进展？

相关推荐