AAAI/CVPR论文详解 | 万字长文相识可表明AI工具及技术的最新进展 - 科技 - 天盟传媒

分享到

AAAI/CVPR论文详解 | 万字长文相识可表明AI工具及技术的最新进展

科技 2023-1-3 06:05 389人浏览 0人回复

收藏分享邀请

摘要

呆板之心分析师网络作者：仵冀颖编辑：H4O本文聚焦于研究和开辟可表明性工具的内容，对AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可表明性工具/方法（局部可表明性、规则可

呆板之心分析师网络

作者：仵冀颖

编辑：H4O

本文聚焦于研究和开辟可表明性工具的内容，对AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可表明性工具/方法（局部可表明性、规则可表明性、概念可表明性）进行相识读，重点相识可表明性工具和方法的最新研究进展。

1 背景

近年来，学术界、工业界以及当局部门对 AI 伦理的重视程度日益增强，从 AI 伦理监管政策到 AI 伦理技术本领，提拔 AI 伦理合规性和打造 AI 伦理技术工具、产物服务成为不停提拔 AI 市场竞争优势的一个核心点。从工业界的具体实践角度看，国外的主流科技公司，包罗 IBM、微软、Google 等，以及国内的腾讯、微博、美团等，都持续加大对 AI 伦理的研究和实践，腾讯研究院还发布了业内首份《可表明 AI 发展陈诉 2022—打开算法黑箱的理念与实践》。

可表明 AI 是一个非常繁芜的范畴，除了涉及 AI 算法 / 模型等技术，还涉及伦理、法律法规等问题。同时，寻求可表明 AI 还需要平衡 AI 的服从和性能的问题。因此，可表明 AI 是一个有待进一步探索的恒久问题，也是迫切需要解决的关键问题。从可表明 AI 研究的切入点角度来说，目前主要可以分为两类，一类是关注怎样促进模型透明性，例如，通过控制或表明 AI 模型 / 算法的训练数据、输入输出、模型架构、影响因素等，进步模型的透明性，使监管部门、模型使用者以及用户可以或许更加轻易理解 AI 模型；另一类则是研究和开辟可表明性工具，即利用工具对已有的 AI 模型进行表明，例如微软的用于训练可表明模型、表明黑盒系统的开源软件包 InterpretML、TensorFlow 2.0 可表明性分析工具 tf-explain、IBM 的 AI Explainability 360 toolkit 等。

本文聚焦于研究和开辟可表明性工具的内容，对 AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可表明性工具 / 方法（局部可表明性、规则可表明性、概念可表明性）进行相识读，重点相识可表明性工具和方法的最新研究进展。

在刚刚已往的 AAAI-2022 中，有一个专门的 tutorial 介绍交互式呆板学习的可表明性。整个 tutorial 由四名专家分别介绍了动机和挑战、通过局部表明进行交互、通过基于规则的表明进行交互和通过基于概念的表明进行交互四部门内容[2]，聚焦于可表明性工具，即从技术角度上提拔 AI 模型本身的可表明性，使其对于用户来说更加“透明”。

2 通过局部表明进行交互

通过局部表明进行交互的方法是最常见的可表明 AI 方法，即给定一个推测器和一个目标决策，输入属性确定哪些输入变量与决策 "最相干"，我们比较熟悉的 SHAP 表明模型（SHapley Additive exPlanation）、LIME 表明器（Local Interpretable Model-agnostic Explanations）都属于这一类方法。

基于局部表明方法的特点包罗：

使用户可以或许建立个别推测的心理模型；
较难获取充足多的样原来获得模型决策过程的概况；
大概会根据用户观察到的样本而产生偏见。

本文从 AAAI-2022 的 tutorial 中选择一种方法，即 FIND，来进行解读。本文正式发表在 EMNLP 2020 中，相干代码已公布 https://github.com/plkumjorn/FIND。

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

由于获得一个美满的训练数据集（即一个相当大的、无偏见的、能很好地代表未见案例的数据集）几乎是不大概的，许多现实世界的文天职类器是在现有的、不美满的数据集上训练的。因此，这些分类器有大概具有不理想的特性。例如，它们大概对某些子群体有偏见，或者由于过分拟合而在实际环境中不能有效工作。本文提出了一个框架，使人类可以或许通过禁用不相干的隐蔽特征来调试深度学习文天职类器[3]。作者将这个框架命名为 FIND（Feature Investigation aNd Disabling，特征调查和禁用）。FIND 利用一种表明方法，即层级相干性流传（layer-wise relevance propagation，LRP）[1]，来理解分类器推测每个训练样本时的行为。然后，它使用词云汇总全部信息，以创建一个模型的全局视觉图，使得人类可以或许理解由深度分类器主动学习的特征，然后在测试期间禁用一些大概影响推测准确性的特征。

LRP 是一种基于深度泰勒分解的表明方法，利用输入特征的紧张性分数来表明神经网络推测。LRP 利用深度泰勒分解技术，通过预先训练的网络，将输出的相干性向后分配，并确定节点对分类的贡献。根据激活度和网络权值，通过在下一层流传相干性来获得每层的相干性。表明器给出了与输入图像具有相同维数的像素级热图，从而可视化了输入图像中对所选种别有贡献的紧张地区。

现代 NLP 模型通常是端到端的，没有显式编码语义特征，理解和分析它们的工作都不直观，所以人们很想知道模型到底都学到了什么。如图 1 所示，NLP 黑盒模型很难清晰的表征单词 (x) 和种别概率 (p) 之间的关联关系：

图 1. 单词 (x) 和种别概率 (p) 之间的关联难以映射 (图片来自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)

一般来说，深度文天职类器可以分为两部门。第一部门进行特征提取，将输入文本转化为代表输入的麋集向量（即特征向量）。第二部门进行分类，将特征向量通过麋集层后，用 softmax 激活来获得推测的类的概率。这些深度分类器都是不透明的，由于人类无法表明中心向量或用于特征提取的模型参数的含义。这使得人类无法运用他们的知识来修改或调试分类器。相反，假如我们相识每个特征中捕捉了输入的哪些模式或质量，就可以理解模型的整体推理机制，由于分类部门的麋集层就变得可表明了。本文通过引入 LRP，检查每个特征检测到的输入模式是否与分类有关。别的，这些特征可以应用于麋集层以支持正确的种别。图 2 具体展示了 FIND 的架构。

图 2. FIND 调试框架概述

思量一个包含 | C | 个种别的文天职类任务，其中 C 是全部种别的聚集，V 表征语料库（词汇）中唯一的词汇聚集。给定训练数据集 D = {(x_1, y_1), ..., (x_N, y_N)}，其中 x_i 是第 i 个文档，包含 L 个词的序列[xi1, xi2,..., xiL]，y_i 为 x_i 的种别标签。使用一个在数据集 D 上训练的深度文天职类器 M 将一个新的输入文件 x 归入其中一个种别 M(x) 。M 可以分为两部门—特征提取部门 M_f 和分类部门 M_c:

其中，f 为 x 的特征向量，W 和 b 为 M_c 的层参数。最终输出为推测概率向量 p。

为了相识模型 M 是怎样工作的，作者分析了激活每个特征 f_i 的输入模式或特征。具体来说，使用 LRP，对于训练数据会合的样本 x_j 的每一个 f_i，我们盘算一个相干性向量 r_ij，以表征 x_j 中每个词对于 f_i 值的相干性分数（贡献）。具体的，对于一个一般的神经网络

z_ij 为神经元 i 神经元 i 与神经元 j 之间的权重
把全部神经元到神经元 j 的 z_ij 合起来加上 bias term 偏置项，得到上一层全部神经元到神经元 j 的向量 zj
经激活函数 g 处理得到下一层神经元 xj

相识特定神经元与分类决策函数 f(x)的相干性 R_j ^( l + 1 )，渴望根据发送到前一层的神经元的消息来获得这种相干性的分解，将这些消息记作 R_ (i ← j)。

l + 1 层的某个神经元 j 的相干性 = l + 1 层的神经元 j 给 l 层全部神经元的相干性之和。

x_j 和 f_i 的相干性向量 r_ij 可以依上式盘算得到。

在对训练样本的全部 d 个特征实验上述操纵后，可以生成词云来帮助用户更好地理解模型 M。如许就做到了：不清楚潜伏特征是什么意思，但清楚它是怎样映射到每个种别的，即模型的可表明性。

词云: 对于每个特征 f_i，创建（一个或多个）词云，以可视化输入文本中高度激活 f_i 的模式。这可以通太过析训练数据中全部 x_j 的 r_ij 并在词云中显示获得高相干性分数的词或 n-grams 来实现。作者表现，差别的模型架构大概有差别的方式来生成词云，以有效地揭示特征的行为。

本文选择 CNN 作为分类器，来自训练样本的每个特征都有一个包含 n-grams 的词云，由 CNN 的 max-pooling 选择。如图 3，对应于过滤器大小为 2 的特征，给出了 bi-grams（例如，“love love”, “love my”, “loves his” 等），其字体大小与 bi-grams 生成的特征值的大小相对应。这与之前的工作分析 CNN 特征的方式雷同，相当于使用 LRP 对输入的特征值进行反向流传，并裁剪出 LRP 得分不为零的连续输入词，显示在词云中。

图 3. 来自 CNN 的一个特征的词云（或字面意思是 n-gram）

如前所述，我们想知道学到的特征是否有效，是否与分类任务相干，以及它们是否从下一层获得得当的权重，可以通过让人类思量每个特征的词云并告诉我们该特征与哪个种别相干来实现。

不过，在实际场景中如许的直策应用还是存在问题。假如一个词云吸收的答案与它真实的种别（表征为 W）差别，则表明该模型存在问题。例如，假定图 3 中的词云表征情绪分析任务中的特征 f_i，但 W 的第 i 列暗示 f_i 分类为“负面情绪种别(negative sentiment class)”，则我们可以判断这个模型是不正确的。假如这个词云出现在产物分类任务中，这也是有问题的，由于词云中的短语对任何产物种别都不具有辨别性，是无法给出正确的分类效果的。因此，作者进一步修正该方法，为用户提供了禁用与任何有问题的词云相对应的特征的处理方式。将 M_c 修正为 M’_c：

Q 是一个掩码矩阵，⊙是一个元素相乘的运算符。最初，Q 中的全部元素都是可以或许实现特征和输出之间全部毗连的元素。为了禁用特征 f_i，将 Q 的第 i 列设置为零向量。禁用特征后，冻结 M_f 的参数并微调 M’_c 的参数 (除了掩码矩阵 Q) 在最后一步用原始训练数据集 D 进行微调。

作为示例，作者在 Yelp 数据库中进行了实验。Yelp 库用于推测餐厅批评的情绪（正面或负面），作者抽出 500 个样本作为 Yelp 的训练数据。使用 MTurk 上的人类反应来给特征分配等级。由于每个分类器有 30 个原始特征（d = 30），作者将它们分为三个等级（A、B 和 C），每个等级有 10 个特征。预计排名 A 的特征对推测任务最相干、最有用，而排名 C 的特征最不相干，大概会粉碎模型的性能。

图 4 显示了来自 Yelp 数据集的三个 CNN 样本之一的均匀特征分数的分布。图 5 给出了每个等级的词云的示例。我们可以清楚地看到这三个特征的差别质量。一些参与者回答说，图 5 中的等级 B 特征与正面种别相干（大概是由于 "delicious" 这个词），W 中这个特征的权重也是云云（正面：负面 = 0.137：-0.135）。风趣的是，图 5 中的等级 C 特征得到了负分，由于一些参与者认为这个词云与正面种别有关，但实际上模型将这个特征作为负面种别的证据（正面：负面 = 0.209：0.385）。

图 4. 在 Yelp 数据集上训练的 CNN 模型的均匀特征分数的分布

图 5. 排名 A、B、C 的 CNN 特征的词云示例

3 通过基于规则的表明进行交互

通过基于规则的表明可以看做是一种基于全局表明的方法。基于全局表明方法的特点包罗：

可以或许提供一个概述图；
可以或许制止表述性偏见；
这种全局简化的概述处理是以老实性为代价的。

规则可以直接从数据中学习（白盒模型），也可以从模型的替换物中学习（黑盒模型）。现有基于规则的表明方法的区别主要在于“规则的复杂性、准确性、非重叠性” 这三方面。此外，他们在展示规则的方式上也有差别（决策列表、决策集）。为了准确反映决策界限，规则必须涵盖越来越窄的数据片 / 集，而这反过来会对可表明性产生负面影响。我们也从 tutorial 给出的方法中选择一篇进行深入解读。

Machine Guides, Human Supervises: Interactive Learning with Global Explanations

本文是 AAAI 2021 中的一篇文章，提出了表明性引导学习（explanatory guided learning，XGL），这是一种新型的交互式学习计谋，在这种计谋中，呆板引导人类监督者为分类器选择信息丰富的样本。这种引导是通过全局表明来提供的，全局表明总结了分类器在样本空间的差别地区的行为，并暴暴露其缺陷。与其他由呆板发起并依赖局部表明的表明式交互学习计谋相比，XGL 的计划是为了应对呆板提供的表明超太过类器质量的环境。此外，XGL 利用全局表明来打开人类发起的互动的黑匣子，使监督员可以或许选择挑战所学模型的信息样本。XGL 最大的优势在于：规则可以是简朴的，同时用来指导人类的反馈[4]。

令 H 表征一类黑盒分类器 h，即神经网络或内核机。我们的目标是从数据中学习一个分类器 h。最初我们大概只能获得一个小的训练集 S_0，随后可以通过 supervisor 获取更多的样本。为了便于理解和控制，还要求呆板以专家 supervisor 可以理解的方式表明本身的信心（belief），这将有助于辨认推测器逻辑中的错误。表明式主动学习（explanatory active learning，XAL）就是这一类代表方法。在 XAL 中，呆板从一个未标志的样本池中选择 queries x，并要求 supervisor 对其进行标志，此外，XAL 还给出对 queries 的推测效果以及对推测效果的局部表明。这些表明揭示了生成这些推测效果的原因，例如特征相干性，并与推测效果一起构建一个 narrative。此外，supervisor 还可以通过对表明提供反馈来控制 predictor，例如，可以指出 predictor 错误地依赖了哪些特征。

不过，由于局部表明偏重于 queries，XAL 输出的 "narrative" 忽略了未知数（unknown unknowns，UU），根据定义，呆板在这种环境下体现得很差。UU 大概会诱使呆板向用户过分倾销本身的性能，特殊是当它们与高本钱相干联时。这就导致了叙述性偏见（narrative bias，NB）。直观地说，NB 权衡的是 queries x1,...,X_T 转达给用户的性能与真正的风险 R_T。用户感受到的性能是 XAL 的 narrative 随着时间推移所暴露的丧失的函数。图 6（左）具体展示了这个问题，合成数据的计划是为了诱发未知的 UU。将红色的样天职组为间隔匀称的集群，而蓝色的样本则匀称地分布在其他地方。主动 RBF SVM 颠末 140 次不确定性采样迭代后选择的 queries 被圈在黄色的地方，背景是决策面。queries 明显会合在已知的红色集群四周，在这些地区中分类器的推测息争释（如特征相干性或梯度信息）性能都较好。queries 完全忽略了模型在未知的红色集群上的糟糕体现，因此也被 XAL 的输出 narrative 所忽略。

AL（active learning）在存在未知数（unknown unknowns，UU）的环境下，也就是分类器会犯高置信度错误的地区，工作效果很差。这在种别偏移和概念漂移的环境下是很常见的，而当与高错误标志本钱相干时，尤其具有挑战性。图 6（左）说明了这个问题，合成数据的计划是为了诱发未知的未知数 UU。将红色的样天职组为间隔匀称的集群，而蓝色的样本则匀称地分布在其他地方。主动 RBF SVM 颠末 140 次不确定性采样迭代后选择的查询被圈在黄色的地方，背景是决策面。查询明显会合在已知的红色集群四周，该地区中分类器在推测息争释（如特征相干性或梯度信息）方面都已经体现精良。模型在未知的红色集群上的糟糕体现完全被查询所忽略，因此也被 XAL 的表述输出所忽略。

图 6. 左图：基于不确定性的 AL 查询已知红色聚类四周的点（黄色圈出）而忽略了未知的聚类；中图：XGL 发现了大多数的红色集群；右图：HINTER 从肝炎数据会合提取的规则样本（种别为活体、死体）：大夫只需泯灭很少的精力就能理解和（验证）如许的规则

本文提出使用由人类发起的互动学习作为解决叙述性偏见（NB）的方法。该方法的出发点是：假如 supervisor 能看到并理解 h 的决策面，她就能辨认已知和未知的错误—从而确定 predictor 是否行为不当—并明智地选择可以纠正这些错误的例子。当然，在实际应用的场景中 h 是非常复杂的，所以本文所讨论的问题是理想状态下的，真正的挑战是怎样使其可行。

本文提出了一种使用人类发起的互动学习作为应对表述性偏见的方法，即 XGL。假如一个有动力的、有知识的监督者能看到并理解 h 的决策面，她就能辨认已知和未知的错误，从而确定推测者是否有错误行为，并智能地选择纠正这些错误的样本。当然，由于 h 的决策面大概非常复杂，这种计谋纯属在理想状态下的步伐。因此，应用这种计谋的关键性挑战在于怎样使实在用。

作者提出通过利用全局表明以一种紧凑和可表明的方式概括 h 来解决这个问题。全局表明是一个可表明的 h 的替换品 g，通常是一个浅层决策树或一个规则集。这些模型可以或许分解成简朴的原子元素，如简短的决策路径或简朴的规则，从而可以独立形貌和可视化，并与个别样本相干联。图 6（右）展示了一个样本模块。通常 g 是通过模型蒸馏得到的，即，通过使用一个全局表明器π将 h 投影到 G 上：

其中，P 是 ground-truth 分布，M 为丧失函数，Ω用于权衡表明的复杂度，λ>0 控制老实于 h 和简朴性之间的权衡。期望值通常由一个经验性的蒙特卡洛估计所取代，该估计使用来自 P 的新的 i.i.d. 样本或使用任何可用的无标签样本。

XGL 的伪代码如 Algorithm 1 所示。在每次迭代中，在当前训练集 S 上拟合一个分类器 h，并使用全局表明 g=π(h)进行概括。然后，将 g 提交给 supervisor。每条规则都被翻译成 visual artifact 或文字形貌，并与它所涵盖的样本一起展示。按照规则对样本进行标注。然后要求 supervisor 提供一个或多个表明有误的样本，将这些样本添加到训练集 S 中。循环往复，直到 h 充足好或查询 budget 用完。

在实践中，supervisor 可以通过以下方式查找错误：

扫描样本，每个样本都与推测和规则一起显示，并指出一个或多个错误；
搜刮错误的规则，然后为其提供反例。

第一种计谋模仿的是引导式学习（guided learning，GL）：在 GL 中，给定一个关于某些目标概念的文本形貌和一个通过搜刮引擎获得的样本列表，用户必须在列表中辨认该概念的样本。差别的是，在 XGL 中，样本与相应的推测效果息争释一起呈现，这使得用户有大概辨认实际的错误并理解模型。从这个角度讲，XGL 之于 GL，就像 XAL 之于 AL 一样：一种让无交互的东西变得不透明的方法。样本可以按规则分组，以便于对它们进行扫描。鉴于 GL 已经乐成地部署在工业应用中，作者认为 XGL 也可以做到。第二种计谋是针对有本领辨认不良规则并辨认或合成反例的专家。由于规则通常比样本少得多（在本文实验中，通常是 5-30 条规则 vs 数百或数千条样本），这种计谋大概服从更高。通过对规则进行得当的规范化，可以促进规则的可表明性。

XGL 的计划是为了抵抗叙述性偏见（NB），同时使专家 supervisor 可以或许辨认错误。作者夸大，简朴地将全局表明与呆板启动的交互式学习结合起来，并不能达到同样的效果，由于 queries 的选择仍旧会受到 UU 的影响。XGL 的另一个好处是，它原生支持在每次迭代中选择成批的实例，从而低落了 queries 本钱。作者在本文中将讨论和实验限制在 one example-per-query 的环境下，以简化与竞争对手的比较。

将选择例子的责任转移给人类 supervisor 也存在风险。全局性的表明大概是一个太大略的总结，或者大概被 supervisor 误解。这一问题同样影响了 AL 和 XAL。所以，作者表现，应将 XGL 应用于不太大概出现这些问题或其影响可以忽略的环境中。

XGL 的主要缺点无疑是全局表明的认知和盘算本钱。盘算本钱可以通过随着 h 的更新而递增地更新 g 来减少。认知本钱可以通过以下几种方式改善：可以将全局表明限制在实例空间的那些地区中；根据需要调解全局表明的分辨率，例如可以先向 supervisor 提供大略的规则 g，然后允许他美满 g，并 "放大" 那些看起来可疑的地区或子空间。不管怎么说，全局表明必然比局部表明或不表明要求更高。像其他互动协议一样，XGL 涉及一个 human-in-the-loop 的步骤，supervisor 必须参与进来并在其中投入时间和注意力。作者的论点是：在高估错误模型的代价很大的应用中，这种额外的努力是合理的。

作者将本文基于规则的 XGL 的实现方法命名为 HINTER（Human-INiTiated Explanatory leaRning），并在几个 UCI 数据集上使用标准的二元分类器（SVM 和梯度提拔树）与几个由人类和呆板发起的替换方案进行了比较。作者在图 6 所示的合成数据集以及来自 UCI 存储库的几个分类数据会合进行了实验，实验效果见图 7。在大多数数据会合，HINTER 的推测效果与竞争对手的推测效果相同或更好。在特殊难的合成数据上，性能差别相当明显，XGL 比竞争对手高出近 20% 的 F1 分数。作者分析这也是由于 UU 的原因。AL 和随机抽样只是很少查询红色种别的样本，这就是他们在图 7（左）中显示的进展迟钝的原因，而 GL 对少数种别过分抽样。在全部原始数据集和全部 "+uu" 变体中，XGL 的体现与全部竞争对手相似或更胜一筹。体现最差的是 german 数据集，无论选择何种根天职类器，XGL 在 F1 方面的体现都很差，但在表述性偏见（NB）方面仍旧体现最好。综上所述，效果表明，在存在 UU 的环境下，XGL 倾向于学习更好的分类器，而假如 UU 的问题不大，XGL 的体现也是合理的。

图 7：在三个有代表性的数据集上，当查询次数增长时，全部竞争者的 F1 得分（上）和表述偏见（下，越低越好）：合成任务（左），banknote（中）和 german（右）

4 通过基于概念表明进行交互

本节重点讨论基于概念表明的交互方法，包罗基于概念的模型（Concept-based models，CBMs）和神经符号模型（Neuro-symbolic models），这些模型注意模型表明的更高语义程度的优势。前述的局部或基于规则的方法难以访问模型内部、概念层面的原因，特殊是对于黑箱模型而言。而基于概念表明的方法则试图从概念和语义的角度分析 AI 模型的工作机理。文献 [5] 为 tutorial 中提及的一篇文章，我们对其加以解读。

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations

本文最新发表在 CVPR 2022 中，主要研究目标是通过弱监督和人机互动在原型离散的潜伏空间上学习视觉概念。本文提出了交互式概念互换网络（interactive Concept Swapping Networks，iCSNs），这是一个通过弱监督和隐性原型表征来学习以概念为根本的表征的新框架[5]。这种以语义为根本的、离散的潜伏空间有利于人类理解和人机互动。

由于概念学习的复杂性，同时受到心理学和认知科学范畴中关于概念原型的研究效果的启发，作者研究了原型表征在学习人类可理解和可修订的概念表征方面对神经概念学习者的优势。为此，本文提出了 iCSN，它通过弱监督方式来学习隐含地将语义概念与原型表征结合起来。这种结合是通过离散的距离估计和配对数据样本之间的共享概念表征的互换来实现的。iCSN 允许查询和修订其学习的概念（如图 8），并整合关于未见过的概念的知识（如图 9）。

图 8. 一个颠末训练的模型（左）询问人类用户（右），假如它从数据中提取的概念与用户的知识相吻合。随后，该模型可以接受来自用户的修改意见

图 9. 用于学习新概念的人机互动。用户查询一个对象，并在必要时引导呆板的原型建议

iCSN 的完整框架见图 10。

图 10. 交互式概念互换网络。iCSN 基于一个确定性的主动编码器布局，提供一个最初的 entangled latent encoding（1）read-out 编码器；（2）从潜伏空间中提取相干信息，并将其提取的概念编码与一组原型插槽进行比较；(3)通过一个加权的、基于 softmax 的点积；(4)生成一个离散代码，表明每个概念编码的最相似的原型插槽。iCSNs 是通过简朴的重建丧失、通过匹配配对的弱监督和交互方法来训练的；(5)共享概念的潜伏概念表征，欺凌将语义信息与特定的原型表征结合起来

基于原型的概念架构。给定输入 x_i，为了简朴起见，下述表述中会从符号中删除样本索引 i，并用 x 表现整个图像。在本文框架中，x 也可以是图像子地区的潜伏表征。通过预处理步骤，例如通太过割算法或合成生成场景模型，可以隐式或显式地从图像中提取该子地区。此外，假设每个 x 包含几个属性，例如颜色、形状和大小。将这些属性的实现称为基本概念，例如 “蓝色” 或“三角形”。将 “颜色” 称为一个范畴概念，或者在认知和心理科学范畴中经常被称为上位概念（superordinate concept）。由此，每个图像 x 都有 ground-truth 基本概念 c，J 表现上位概念的总数。作者做了一个必要的假设，即每个上位概念 x 只能包含一个基本概念实现。为了简朴起见，进一步假设每个上位概念包含相同数量的基本概念 K，这些概念在实践中大概会有所差别。

假设编码器 - 解码器布局，定义一个输入编码器 h(·)，它吸收图像 x 并将其编码为潜伏表征 h(x)=z。iCSN 没有像许多基于主动编码器的方法那样直接从 z 重建，而是首先将几个 read-out 编码器 Mj(·)应用于潜伏表征 z，从而生成 Mj(z)=φ_j。将编码φ_j 称为概念编码。每个 read-out 编码器的目标是从胶葛的潜伏空间 z 中提取与上位概念（例如颜色）相对应的相干信息。我们将在下面讨论怎样欺凌提取特定于概念的信息。iCSN 的一个核心组件是一组代码本，每个代码本包含多个原型插槽（prototype slots）。将这个聚集定义为Θ:=[p_1,…,p_j]。其中，p_j 表现代码本，每个代码本包含一组有序的可训练、随机初始化的原型插槽。

为了将每个概念编码φ_j 分配给 p_j 的一个原型插槽，将相似度分数 S_dot(·,·)定义为其两个输入的点积上的 softmax。通过这种方式，得到概念编码φ_j 和特定原型插槽(p_j)^k 之间的相似度：

得到的相似度向量 s_j 包含种别 j 的每个原型插槽的相似度得分，对应的概念编码为φ_j。为了进一步离散化和将概念绑定到各个原型插槽，引入第二个函数 Sτ(·)，将加权 softmax 函数应用于相似度分数：

本文实验中，逐步低落τ以渐渐增强信息的绑定。在τ的极度环境下，∏j 雷同于一个独热向量（在 j>1 的环境下，多标签独热向量），以表征概念编码φ_j 最雷同于第 j 个种别的哪个原型插槽。最后，将每个种别的加权相似性分数毗连到一个向量中，以吸收最终的原型距离码 y，并将其通报给解码器 g(·)，以重建图像。

概念互换和弱监督。在训练之前，即初始化之后，还没有语义知识绑定到原型插槽。然而，在收敛的 iCSN 中发现的语义知识是通过弱监督的训练过程和简朴的交互本领间接学习的。本文接纳匹配配对方法，这是一种实用的弱监督训练过程，以降服无监督解胶葛的问题。在这种方法中，观察到一对图像 (x,x’)，它们共享数据中潜伏变化因素的已知子集的值，例如颜色，而共享因素的总数可以在 1 到 J 1 之间变化。通过这种方式，模型可以使用配对的附加信息来束缚和指导其潜伏表征的学习。以前关于弱监督训练（特殊是 VAEs）的工作恢复方法主要是在共享因子 ID 处应用 x 和 x’的编码器分布的乘积或均匀值，而 iCSN 则是在成对表征之间使用一个简朴的互换本领。具体来说，当 v 是图像对(x,x’) 之间的共享因子 ID 时，相应的相似度分数 (∏_v, ∏’_v) 在最终对应的原型代码之间互换：

这种互换过程具有直观的语义，它迫使 iCSN 从第一幅图像中提取信息，用于表征第二幅图像的种别 v 的属性。

训练目标。iCSN 最终通过在大小为 N 的批次中每对图像的单像素重建丧失进行训练：

该丧失项与之前关于原型学习的几项工作形成对比，之前的这些工作会通过额外的划一性丧失来增强语义绑定。iCSN 则通过将语义绑定隐式地包含到网络体系布局中，减少了引入额外超参数以及对多个目标进行更复杂的优化过程的需要。

与 iCSNs 交互。iCSNs 的目标，尤其是与 VAEs 相比，不一定是学习底层数据分布的生成潜伏变量模型，也可以是学习人类可以理解和交互的原型概念表征。因此，自编码器布局是达到目标的一种本领，而不是必要条件。然而，iCSN 不是在收敛后丢弃解码器，而是可以呈现输入样本对每个概念最接近的原型重建。因此，通过在测试时查询这些原型重建，人类用户可以确认推测的概念是否故意义，并大概检测到不想要的模型行为。通过定义测试时重构毛病的阈值，iCSN 可以给出其在辨认新样本中概念简直定性的启发式指示。

由于存在离散且语义受限的潜伏代码 y，人类用户可以通过将 y 视为多标签独热编码与 iCSNs 交互。例如，逻辑陈诉img. hasconcept(img, p 11 ) r img. isin(img, imgset) hasconcept(img, p 12 )，用户可以制定逻辑束缚，分别读作“从未检测到原型 p 11 所代表的概念”“对于这组图像中的每一幅图像，你都应该检测到原型 p 12 所代表的概念。”。用户可以以交互方式管理一组体现不正确的图像。

最后，iCSNs 的模块化特点还具有交互式在线学习本领。例如，当模型提供包含新概念的数据样本时，或当数据中存在的一个因素最初被认为不紧张，但在初始学习阶段被认为很紧张时，在这两种环境下，交互的方法取决于要学习的概念的条理布局，即它是基本概念还是上位概念。假设人类用户对 iCSN 之前的概念表现满意，并且 J（每个代码本的原型槽总数）被设置为高估，用户可以简朴地通过相干种别的一个未使用的原型插槽给出反馈以表现新的基本概念。假如需要学习一个新的上位概念，可以在初始训练阶段通过添加额外的 read-out 编码器来实现。与其他 read-out 编码器相比，该编码器不映射到原型插槽的空间。最终，可以训练 iCSN 的初始潜伏空间 z 来表征完整的数据分布。为了包含最初被认为不相干的概念，可以只扩展 J，这意味着添加一个新的 read-out 编码器 m_J+1(z)=φ_J+1 和代码本 P_J+1 到 iCSN。然后，m_J+1 学习将新的基本概念从 “新的” 上位概念绑定到 p_J+1，p_J+1 只需要新的数据对来举例说明以前不紧张的概念。

本文提出了一个新的基准数据集：基本概念推理（Elementary Concept Reasoning，ECR），如图 11。ECR 由恒定颜色背景上二维多少对象的 RGB 图像（64×64×3）构成。对象的形状（圆形、三角形、正方形和五边形）、大小（大小）和颜色（红色、绿色、蓝色、黄色）可以差别。为每种颜色添加匀称的抖动，从而产生差别的色调。每个图像都包含一个固定在图像中央的对象。对图像进行配对处理，使单个图像中的对象至少共享 1 个、最多共享 J 1 个共有属性。ECR 包含 5000 个图像对和 2000 个用于验证的图像的训练集。

图 11. 基本概念推理数据集样本。每张样本图像（左）描绘了一个居中的二维物体，具有三种差别的属性：颜色、形状和大小。对图像进行配对，使得这些物体共享一个和两个概念（右）

在本文实验中，作者将 iCSN 与几个基线方法进行比较，包罗无监督训练的β-VAE 和使用编码器分布的算术均匀值的 Ada-VAE。为了与通过共享匹配配对训练的 iCSN 和 Ada-VAE 进行公平的比较，最初将 Ada-VAE 作为一种较弱的监督形式引入，作者也用已知的共享因子 ID 训练 Ada-VAE。这个基线本质上雷同于β-VAE，在已知的共享因子 ID 处对图像进行编码器分布的均匀化。这一方法在本文实验效果中表现为 VAE。最后，作者将 iCSN 与一个离散化的 VAE 方法进行比较，该方法通过 Gumbel-softmax 本领使用分类分布（Cat-VAE）。Cat-VAE 的训练方式与 VAE 相同，即通过份额配对和编码器分布的均匀化。

作者通过线性探测研究每个模型的潜伏编码。表 6（上）中的效果记录了差别模型在五次随机初始化过程中所进行验证集的均匀精度和标准毛病。我们观察到，CSN 的潜伏编码具有近乎美满的推测性能，并且超过了全部变分方法。紧张的是，CSN 的体现乃至超过了 VAE 方法（VAE 和 Cat VAE），后者与 CSN 在同样范例的弱监督下接受训练。β-VAE 的均匀性能比弱监督模型差。然而，Ada-VAE 的体现比β-VAE 差。此外，Cat VAE 的离散潜伏表征也比 CSN 体现差。Cat VAE 运行环境表明性能存在较大毛病，同时表明多个 Cat VAE 运行收敛到次优状态。总之，只管 ECR 数据集仅包含单个 2D 多少对象的变化，但基线模型的性能不如 CSN，即使使用相同数量的信息进行训练。

表 6. 通过决策树（DT）和逻辑回归（LR）进行线性探测。(上)对 iCSN 模型和各种基线的 latent codes 进行探测。(下)通过对 Cat-VAE 的 latent codes 进行探测，并进行编码器分布互换和 iCSN 概念编码均匀化的消融研究。全部的分类准确率都是在测试集上盘算出来的

iCSN 的语义束缚离散潜伏空间的一个优点是，人类用户可以直接辨认次优概念表征，见上文所示的图 8。在辨认正确或错误学习的概念后，用户可以在这个离散的概念空间上应用简朴的逻辑反馈规则。具体来说，在通过弱监督进行训练后，建议呆板和人类用户讨论所学的概念，并确定这些概念是否与用户的知识划一，或者是否需要修改。例如，iCSN 可以学习在几个原型插槽上表现颜色，或者通过一个插槽表现两个形状，这表明它错误地认为这些形状属于同一个概念。然后，iCSN 可以通过两种方式转达其学到的概念。首先，它可以根据推断出的离散原型距离代码对共享一个概念的新图像进行分组，并询问人类用户分组后的图像是否确实共享一个共同的基本概念，如图 8 所示。其次，利用解码器，它可以呈现每个学习概念的原型重建，例如，呈现具有蓝色原型阴影的对象，参见上文所示的图 9。在确定了潜伏的次优概念表征之后，人类用户可以通过逻辑规则在 iCSNs 的离散化潜伏空间上进行交互，并进一步改进表征。

对于之前全部的 vanilla CSN 配置，人工检查了 32 个大概的概念组合中的一个示例的概念编码 y，并确定了在每个单独概念的大多数示例中 “激活” 的原型插槽（主插槽），此外，根据概念辨认那些在示例子集（辅助插槽）中从未激活或很少激活的原型插槽。接下来，在 y 上应用 L2 丧失，使用原始重建丧失和该额外 L2 丧失微调原始训练集上的先前运行效果。这种反馈的语义是，应该只由主要原型槽来表现概念。此外，在两次运行中，修改了一个观察到的次优解，即五边形和圆绑定到同一原型插槽。因此，在训练集的全部五边形样本上提供反馈，以绑定到另一个空的原型插槽，并再次通过额外的 L2 丧失束缚优化。

5 小结

我们在这篇文章中从可表明性工具的研发角度讨论了可表明 AI 问题，讨论的依据是 AAAI-2022 tutorial 中提及的最新研究结果。目前，国内外关于可表明 AI 真正落地的应用还比较少，主要会合在几个超大型公司，而学术界对这一问题的关注也远不如别的 AI 范畴多。但是随着数字经济的紧张性越来越高，平台企业的合规性发展成为了下一步 AI 算法 / 模型应用的关键。此外，从监管端来说，促进可表明 AI 的发展也是有效监管数字经济的紧张抓手。最后，可表明 AI 也是我们广大用户应用 AI 模型的定心石。随着越来越多国内大型企业对可表明 AI 的重视度不停提拔，信赖可表明 AI 会很快在大量的应用场景中使用，可表明性工具的研发也会受到更多研究人员的关注。

本文参考引用的文献

[1] Bach S , Binder A , Montavon G , et al. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation， PLOS ONE, 2015, 10

[2] Tutorial on Explanations in Interactive Machine Learning，AAAI 2022，https://sites.google.com/view/aaai22-ximl-tutorial

[3] Lertvittayakumjorn et al., 2020, FIND: Human-in-the-Loop Debugging Deep Text Classifiers, EMNLP 2020

[4] Teodora Popordanoska, Mohit Kumar, Stefano Teso, Human-in-the-Loop Debugging Deep Text Classifiers,AAAI 2021

[5] Stammer, W. , et al. "Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations." CVPR 2022

仵冀颖，工学博士，结业于北京交通大学，曾分别于香港中文大学和香港科技大学担当助理研究员和研究助理，现从事电子政务范畴信息化新技术研究工作。主要研究方向为模式辨认、盘算机视觉，爱好科研，渴望能保持学习、不停进步。

关于呆板之心全球分析师网络

Synced Global Analyst Network

呆板之心全球分析师网络是由呆板之心发起的全球性人工智能专业知识共享网络。在已往的四年里，已有数百名来自全球各地的 AI 范畴专业学生学者、工程专家、业务专家，利用本身的学业工作之余的闲暇时间，通过线上分享、专栏解读、知识库构建、陈诉发布、评测及项目咨询等形式与全球 AI 社区共享本身的研究思路、工程经验及行业洞察等专业知识，并从中获得了自身的本领成长、经验积累及职业发展。

申请到场分析师网络：呆板之心全球分析师网络 - Application Form