FDBD

Fast Decision Boundary based Out-of-Distribution Detector(FDBD)

ICML 2024
根据 OOD 样本到决策边界的特征距离来检测它们
采用的也是后处理方法 #post-hoc

[!info] OOD介绍
Out-of-distribution,分布外检测。在实际情况下,由于通常不满足封闭性类别平衡性独立同分布假设,因此需要进行识别,哪些是In-distribution样本,哪些是Out-of-distribution样本。通常考虑为一个二分类问题,采用指标为AUROC、FPR95、AUPR等

文章简要概述:

  1. 研究背景
    • 随着机器学习模型在现实世界中的广泛应用,不可避免地会遇到训练分布之外的样本(OOD),OOD检测对于确保模型的安全部署至关重要。
    • 现有的OOD检测方法分为基于模型输出空间和基于特征空间的方法,基于特征空间的方法虽然有效,但依赖于从训练特征构建的辅助模型,计算开销较大。
  2. 研究方向
    • 从决策边界的新视角设计事后(post - hoc)OOD检测器,在不使用辅助模型的情况下利用特征空间中的丰富信息,优化计算效率。
  3. 研究方法
    • 测量到决策边界的特征距离
      • 首先在多类分类器中定义了样本特征到决策边界的距离($D_f(z_x,c)$),由于决策区域的非凸性,该距离没有闭式解,难以直接计算。
      • 提出一种有效的闭式估计方法$\tilde{D}_f(z_x,c)$,从理论上证明了该估计紧密地下界(lower bound)了距离,并且通过实验验证了该方法的有效性(相对误差小于1.5%)和高效性(在推理过程中可在常数时间内计算,相比于迭代优化方法显著降低了计算开销)。
    • 基于决策边界的快速OOD检测器(fDBD)
      • 通过实验观察发现,同分布(In - Distribution,ID)特征相比OOD特征更远离决策边界,并且在将ID和OOD样本按照与训练特征均值的偏差水平进行分组比较时,两者的分离效果更好。
      • 基于上述观察,设计了一种基于正则化平均特征距离到决策边界的OOD检测分数($regDistDB$),通过对该分数设置阈值构建了fDBD检测器,该检测器无超参数、无辅助模型且计算高效(时间复杂度为$O(|C| + P)$,与训练类别的数量$|C|$和特征维度$P$线性相关)。
  4. 实验结果
    • 在CIFAR-10和ImageNet等不同的数据集、不同的训练目标(交叉熵损失和监督对比损失)以及不同的网络架构(ResNet、ViT和DenseNet)上进行了广泛的实验。
    • 使用FPR@95(95%真阳性率下的假阳性率)和AUROC(接收者操作特征曲线下面积)作为评估指标,结果表明fDBD在大多数情况下达到或超过了现有方法的OOD检测性能,同时保持了与普通softmax confidence检测器相当的推理延迟,几乎没有增加额外的开销。
    • 还进行了消融实验,验证了正则化对提高OOD检测效果的作用,以及在不同的激活塑造算法(ReAct、ASH和Scale)下fDBD的性能表现。
  5. 研究结论
    • 提出的fDBD是一种高效且有效的OOD检测器,基于特征到决策边界的距离这一新颖视角,通过闭式估计方法测量距离,揭示了ID和OOD样本与决策边界的关系,通过正则化设计了有效的OOD检测算法。
  6. 研究不足
    • 论文未明确提及研究的不足之处。
  7. 未来研究方向
    • 希望该算法能够启发未来从决策边界的角度探索模型不确定性的工作,包括OOD检测以及其他研究问题,如对抗鲁棒性和域泛化等。

Intro

后处理方法(post-hoc method):与训练无关(training-agnostic),适合在预训练模型上立即实施

  • eg. KNN,马氏距离等距离度量方法;MSP、O-DIN等置信度处理方法

先前方法的问题:它们对根据训练特征构建的辅助模型的依赖会产生额外的计算成本

ID 和 OOD 样本的特征相对于决策边界位于哪里?

为了回答这个问题,我们首先将特征距离到类决策边界的概念形式化。 我们将距离定义为特征空间中改变分类器对类别的决策的最小扰动,如图 1 左图所示。
我们特别关注倒数第二层,即线性分类头之前的层。 由于非凸性,倒数第二层上的距离无法轻易计算。
为了最大限度地减少测量距离的成本,该文章引入了一种有效的封闭式估计,经过分析证明可以严格限制距离。 直观上,特征到决策边界的距离反映了改变模型决策的难度,并且可以量化特征空间中的模型不确定性。
与输出空间 softmax 置信度(常见的MSP)不同,该文章的特征空间距离使用特征空间中嵌入的丰富信息进行 OOD 检测。

image.png|600

直观上,ID 样本的特征比 OOD 样本更远离决策边界,因为分类器在 ID 样本中可能更具决定性。当与训练特征平均值的偏差水平相等时,ID 和 OOD 可以更好地分开

问题定义

我们考虑一个数据空间$X$,一个类集$C$和一个分类器$f: X→C$,该分类器是在从联合分布$P_{XC}$ 中提取的样本 $i.i.d.$ 上训练的。我们表示$P_{XC}$在$X$上的边际分布为$P^{in}$。我们将从$P^{in}$中抽取的样本称为分布内(ID)样本。在实践中,分类器$f$可能会遇到$x∈X$,且它不是从$P^{in}$中提取的。我们称这样的样品为分布外(OOD)。

由于分类器无法对训练期间未见的类别的OOD样本做出有意义的预测,因此区分此类OOD样本和ID样本对于部署可靠性非常重要。此外,对于时间紧迫的应用,及时检测OOD样品以采取预防措施至关重要。与现有技术中使用ID特征聚类和构建辅助模型不同(Lee et al., 2018;Sun et al., 2022),我们可以从决策边界的角度研究OOD-ness,这本质上捕获了训练ID统计。

决策边界判断OOD

第三章主要讲述了使用决策边界检测离群分布(OOD)的相关内容

  1. 测量到决策边界的特征距离(3.1)

    • 定义距离概念:在多分类器的倒数第二层空间,定义样本$x$的特征嵌入$z_x$到类别$c$($c\neq f(x)$)决策边界的$L2$ - 距离$D_f(z_x,c)$为将模型决策变为类别$c$所需的最小扰动。由于决策区域通常非凸,该距离没有闭式解,难以直接计算。
    • 提出有效估计方法:定理3.2提出一种闭式估计$\tilde{D}_f(z_x,c)$,可有效且紧密地下界$D_f(z_x,c)$。从理论上证明了该方法的有效性,并且通过实证验证其精度高(相对误差小于1.5%)。同时分析了该距离测量方法的效率,其在推理过程中可在常数时间内计算,实证表明在CIFAR - 10分类器上使用该方法计算距离时,与不使用该方法相比,平均推理时间基本无增加,而通过迭代优化估计距离则耗时很长(992.2ms),从而验证了所提估计方法的高效性。
  2. 基于快速决策边界的OOD检测器(3.2)

    • 基于决策边界的假设与验证:从决策边界的角度研究OOD检测,假设由于模型对ID样本更确定,ID特征相比OOD特征更可能远离决策边界。通过大量验证(如附录J中的图展示了ID/OOD到决策边界的特征距离)以及可视化ID/OOD样本到决策边界的平均特征距离(图2左),证实了该假设。

    • 深入探究ID/OOD重叠区域:研究在平均距离到决策边界这一度量下ID/OOD的重叠区域(图3),发现ID和OOD样本的平均特征距离到决策边界都会随着特征偏离训练特征均值而增加,这导致具有较高偏差水平的OOD样本与较低偏差水平的ID样本难以区分,而在相同偏差水平内,OOD与ID样本可更好地分离。

    • 设计OOD检测分数与检测器:基于上述理解,设计OOD检测分数$regDistDB$,它是到决策边界的平均特征距离,并由到训练特征均值的特征距离进行正则化,该分数近似在相同偏差水平比较ID和OOD样本,可增强ID/OOD分离(图2)。通过对$regDistDB$设置阈值,提出基于快速决策边界的OOD检测器($fDBD$),将低于阈值的样本识别为OOD。$fDBD$无超参数且无需辅助模型,计算效率高,计算 $\tilde{D}_f(z_x,c)$ 为常数时间,计算 $regDistDB$ 中的 $|z_x - \mu_{train}|_2$ 时间复杂度为 $O(P)$ ( $P$ 为倒数第二层维度),整体 $fDBD$ 时间复杂度为 $O(|C| + P)$ ,对大规模数据集和模型具有计算可扩展性。

    • regDistDB:一种经过正则化处理的 OOD 检测分数,计算方式为:

    $$
    \begin{aligned}
    \text{regDistDB} := \frac{1}{|C| - 1} \sum_{\substack{c \in C \ c \neq f(x)}} \frac{\tilde{D}_{f}(z_{x}, c)}{\parallel z_{x} - \mu_{\text{train}} \parallel_{2}}
    \end{aligned}
    $$

    其中 $\tilde{D}_{f}(z_{x}, c)$ 是到决策边界的估计距离,$\mu_{\text{train}}$ 表示训练特征的均值。该分数通过正则化特征到训练均值的距离,实现在相同偏差水平下比较 ID/OOD 样本,增强检测效果。

    • avgDistDB:是未经过正则化的平均距离,计算方式为$avgDistDB := \parallel z - \mu_{train}\parallel_{2}regDistDB$,在研究正则化对OOD检测效果影响的实验中,被作为一种检测分数与经过正则化的$regDistDB$进行对比,以体现正则化在OOD检测中的作用。

实验

论文的第四章主要是通过实验展示了fDBD(Fast Decision Boundary based Out-of-Distribution Detector)在不同的OOD(Out-of-Distribution)基准测试中的高效性和有效性。具体内容如下:

CIFAR-10 Benchmark

  1. 实验评估指标
    • 使用了文献中广泛认可的两个指标:在95%真阳性率下的假阳性率(FPR95)和接受者操作特征曲线下面积(AUROC),FPR95分数越低、AUROC值越高表示性能越好。此外还报告了在Tesla T4 GPU上评估的每张图像的推理延迟(以毫秒为单位)。
  2. CIFAR - 10基准测试评估
    • 训练方案:评估了在标准交叉熵损失下训练的模型的OOD检测性能(准确率为94.21%),以及使用监督对比损失(SupCon)训练表示映射的模型(准确率为94.64%)。 (这个地方存疑,因为似乎没有在表格里面提到,怀疑这里的ACC指的是ID分类准确率)
    • 数据集:将CIFAR - 10测试集的10,000张图像作为ID(In - Distribution)测试样本,OOD样本考虑了SVHN、iSUN、Places365和Texture。
    • 基线方法:与六种基于标准交叉熵损失训练的模型的基线方法进行比较,包括MSP、ODIN、Energy、ViM、MDS、KNN,还考虑了在对比损失下特别有竞争力的四种基线方法CSI、SSD+、KNN+。fDBD是训练无关的,无需辅助模型并整合了决策边界视角的类别特定信息,且fDBD、MSP和Energy是无超参数的。
    • OOD检测性能
      • fDBD在FPR95和AUROC分数方面达到了最先进的性能,并且由于3.1节中的高效距离估计方法,计算开销最小。
      • 对比分析:
        • fDBD与MSP/Energy:三者都是无超参数且基于模型不确定性检测OOD,fDBD利用特征空间距离,相比MSP和Energy有显著性能提升,表明特征空间对OOD检测的重要性。
        • fDBD与KNN:在相同超参数设置下对比,fDBD和KNN在CIFAR - 10 OOD基准测试上检测效果都较好,但KNN由于使用辅助模型,平均推理时间较长;在ImageNet OOD基准测试中fDBD显著优于KNN,体现了从类别决策边界角度整合类别特定信息的优势。
        • fDBD与ViM:两者都将类别特定信息集成到特征空间表示中,但ViM在推理时需要昂贵的矩阵乘法,导致延迟增加,且fDBD性能优于ViM,尤其是在ImageNet OOD基准测试中,表明fDBD从特征空间类别决策边界角度整合信息的有效性。

image.png

ImageNet Benchmark

  • 训练方案、数据集和基线:考虑了4.1节中的训练方案,使用交叉熵损失和监督对比损失训练的模型,将ImageNet验证图像中的50,000张作为ID测试样本,OOD样本来自去除与ImageNet重叠类后的Texture、Places365、iNaturalist、SUN数据集。与4.1节中的相同基线进行比较(除CSI外),对于KNN考虑了两组超参数。
  • OOD检测性能:fDBD在ImageNet OOD基准测试的平均FPR95和平均AUROC方面优于所有基线,在大规模数据集上保持了OOD检测的高效性,这与在CIFAR-10基准测试中的观察结果一致,也支持了fDBD与类别数量和维度线性扩展的分析。

image.png

替代架构评估

在基于Transformer的ViT模型和DenseNet上进行实验,评估了fDBD、ViM和KNN在使用交叉熵损失对ImageNet - 1k进行微调的ViT - B/16上的性能(分类器准确率为81.14%),还在DenseNet上进行了扩展实验,结果表明fDBD在不同网络架构上的有效性。

image.png

激活整形下的评估

研究了激活整形算法(ReAct、ASH、Scale)对fDBD性能的影响,将这些算法作为标准ReLU激活的替代操作。fDBD作为无超参数方法,可以与这些算法无缝结合。在ResNet - 50上进行实验,结果表明应用激活整形后性能有所提高,验证了fDBD与这些算法的兼容性,且fDBD与Scale结合在该基准测试中达到了最先进的性能。

image.png

消融研究

  • 正则化的影响:比较正则化平均距离 $\text{regDistDB}$、正则化项 $\parallel z - \mu_{\text{train}} \parallel_{2}$ 和未正则化平均距离 $\text{avgDistDB}$ 的性能。实验表明:
    1. 单独使用 $\parallel z - \mu_{\text{train}} \parallel_{2}$ 区分能力有限
    2. 正则化显著增强 ID/OOD 分离效果
    3. $\text{regDistDB}$ 优于 $\text{avgDistDB}$,支持第 3 节的等偏差比较理论(附录 B 提供理论解释)
  • 单个距离的影响:对fDBD的检测分数(基于到决策边界的特征距离的平均值)进行消融研究,通过对每个样本到决策边界的特征距离排序,使用前k个最小距离值的平均值来检测OOD。在CIFAR - 10和ImageNet基准测试上的实验表明,随着k的增加性能提高,证明了fDBD作为无超参数方法利用所有距离进行OOD检测的设计合理性。

image.png

创新点

  • 提出了一种新的判断OOD的方法,且效果上达到SOTA
  • 训练时间和复杂度明显缩小,采用两种损失效果均优秀
  • 消融实验说明正则化的平均距离效果具有优越性,能显著提高AUROC