卢布尔雅那大学：纯视觉驱动实现图像异常自主检测能力提升突破

张开发

• 2026/6/6 17:36:25 • 15 分钟阅读

分享文章

这项由斯洛文尼亚卢布尔雅那大学计算机与信息科学学院领导并与codeplain公司合作完成的研究以预印本形式发布于arXiv平台编号arXiv:2601.20524v2于2026年4月9日更新。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。一、视觉质检员的困境凭什么说这里有问题工厂流水线上有一种工作叫做质检员。他们盯着一件件经过的产品寻找细微的划痕、裂缝、污渍或者形状异常。这份工作听起来简单却极其考验眼力——要发现那些看起来有点不对劲但说不清楚哪里不对的区域。用人工智能来完成这项任务正是异常检测这个研究领域的核心使命。不过传统方法有个很大的限制它们需要大量的正常产品照片来学习什么是正常的一旦换了个新产品就得重新收集照片、重新训练模型。这就好比你雇了一个质检员他只认识螺丝钉换成齿轮就完全蒙圈了。卢布尔雅那大学的研究团队提出了一个更进一步的目标能不能训练出一个零样本的质检员也就是说这个AI在上岗之前根本没见过要检查的产品但依然能准确判断出哪里有问题这个目标被称为零样本异常检测。在此之前业界的主流方案是借助CLIP这类视觉-语言模型——简单说就是同时懂图像和文字的AI它通过阅读海量图文配对数据学会了各种物体的抽象概念所以即便没见过某种具体产品也能靠概念理解判断是否异常。然而还有另一类AI叫做纯视觉基础模型比如DINOv2它只学视觉没有语言的辅助专注于理解图像中的视觉细节和结构。理论上纯看图片来发现异常应该更适合这类AI——毕竟异常检测本质上就是个纯视觉任务。但现实却很尴尬纯视觉模型在零样本异常检测上的表现一直落后于那些依靠语言知识的对手。这个反直觉的现象正是这篇论文要解决的核心问题。二、问题出在哪里两块绊脚石挡住了纯视觉模型的去路研究团队仔细分析了纯视觉模型表现不佳的原因发现主要是两块绊脚石在作怪。第一块绊脚石是训练数据太单调。现有的用来训练零样本异常检测模型的数据集比如工业界常用的MVTec AD和VisA虽然质量不错但物体种类有限缺陷类型也不够丰富。用这些数据训练出来的纯视觉模型就像一个只见过几种产品的质检员——遇到新产品时他积累的经验远远不够用。相比之下CLIP这类语言-视觉模型因为本身就拥有关于世界万物的概念地图对数据多样性的依赖要小得多所以这个问题对它们影响不大。第二块绊脚石是改造方式太肤浅。当研究者想把一个纯视觉模型改造成异常检测器时过去的做法通常是把模型的主体冻住不动只在最末端加一个简单的判断头来输出结果就像给一个训练有素的士兵换了一顶不同颜色的帽子然后就让他去执行完全不同的任务。这种改造太浅了模型内部处理图像的方式根本没有发生改变自然难以适应异常检测的特殊需求。明白了问题所在研究团队提出了AnomalyVFM这套完整的解决方案分别对症下药解决这两个问题。三、造一个专属的缺陷图鉴三步生成合成训练数据集解决数据单调问题研究团队选择了一个颇为大胆的思路既然现有的真实数据集种类不够丰富那就自己造数据。这个造数据的过程分成三步像一条精心设计的流水线。第一步生成正常的物体图像。研究团队借助FLUX这个当下最先进的图像生成模型给它一段文字指令让它画出各种物体的照片。这段指令的格式大致是一张用于工业视觉检测的[物体]特写照片俯视角度居中拍摄[纹理]背景。其中的[物体]从一份包含100种物体的清单中选取——从苹果、电池、牛仔裤到扳手、溜溜球五花八门[纹理]则从50种背景材质中选取如沙地、竹子、瓷砖等。这两者随机组合一下子就产生了数千种不同的正常样本场景。这份物体和背景的清单是由GPT-4o这个语言AI自动生成的。第二步给正常图像制造缺陷。有了正常图像之后系统会先用一个叫做IS-Net的工具把图中的主体物体区域圈出来然后在物体上随机选一个位置画一个矩形框这个框就是要制造缺陷的区域。矩形框的宽度和高度都在一定范围内随机选取这样生成的缺陷大小各不相同更接近真实情况。接下来再次调用FLUX模型但这次给它的指令变成了带有缺陷描述的版本比如一张用于工业视觉检测的[损坏的][物体]特写照片[纹理]背景。其中[损坏的]被替换为诸如破裂的、腐烂的、污渍斑斑的、生锈的等描述而且每种物体对应的缺陷描述都是量身定制的——一个苹果不会生锈一把扳手不会腐烂。模型在那个矩形框区域内重新生成内容其他区域保持原样从而得到一张含有缺陷的图像。这个过程用的是RePaint技术利用生成模型本身迭代生成的特性来实现局部替换而非专门的修图工具。不过这里有个现实问题图像生成模型并不总是听话的。有时候你要求它生成一个破裂的苹果它画出来的却是一个完好无损的苹果——对生成指令的遵从程度在当前的图像生成领域还远未解决。如果把这些没有成功生成缺陷的图像也塞进训练集反而会误导模型。这就引出了第三步数据过滤。研究团队用DINOv2提取正常图像和含缺陷图像的视觉特征然后对比这两张图的特征有多大差异——如果差异很小说明缺陷根本没有被成功生成这个图像对就会被丢弃如果差异足够大才被保留下来。过滤阈值设定为0.3实验发现在默认设置下大约有30%的生成图像对会被过滤掉这充分说明当前图像生成模型在指令遵从方面确实存在不小的问题。经过这三步研究团队最终生成了一个包含10,000张图像的合成数据集。这个数据集拥有100种物体、50种背景纹理、204种不同的缺陷类型以及多达4,596种物体-背景组合比现有的真实数据集丰富得多。MVTec AD只有73种缺陷类型而这个合成数据集足足有204种。值得一提的是缺陷区域在图像中占据的平均面积只有2.52%相当小这让模型必须学会发现细微的异常而不是只能识别显眼的大问题。四、给视觉模型装上可调焦距参数高效的深度适配机制解决完数据问题研究团队着手解决第二个问题如何深度改造一个纯视觉模型而不仅仅是换顶帽子。AnomalyVFM的改造方案有两个关键设计。第一个设计是LoRA适配器的注入。LoRA是一种来自大语言模型领域的技巧它的核心思想是不改变模型的大部分参数而是在模型的关键位置插入一些轻量级的旁路模块让信息在经过这些旁路时发生适度的修正。用一个通俗的比喻来理解原来的视觉模型是一条固定的管道水流信息沿着管道从头流到尾。LoRA适配器就像是在管道的关键节点加了几个可调节的阀门可以根据异常检测的需求微调水流的方向和强度但管道本身的结构基本不变。在AnomalyVFM中这些LoRA模块被插入到视觉模型每个Transformer模块的注意力机制中具体插入的位置是查询Q、数值V和输出投影层。这样一来模型内部处理图像的方式就能跟随训练发生实质性的改变而不再是一成不变的。在模型的输出端研究团队设计了一个轻量级的解码器专门负责把视觉模型最后提取的特征转换成像素级别的异常概率图。这个解码器由两个上采样模块组成每个模块包含卷积层、GroupNorm归一化、ReLU激活函数和双线性上采样四个部分最终输出两张图一张是异常分割图标注哪些像素可能是异常的另一张是置信度图用来告诉训练系统哪些区域的预测是可靠的。与此同时模型的CLS特征可以理解为对整张图像的全局摘要被送入一个简单的线性层直接输出一个图像级别的这张图是否有问题的评分。第二个设计是置信度加权的训练损失。合成数据虽然量大但合成标注并不完美——自动生成的缺陷掩码有时会有噪声边界不够精确。如果完全信任这些不完美的标注模型可能会被错误信息带偏。研究团队的解决方案是让模型自己评估每个区域标注的可信度。在训练时损失函数会按照置信度图进行加权置信度高的区域对模型参数的更新贡献大置信度低的区域影响就小。同时还有一个正则化项防止模型把所有区域的置信度都设得极低来逃避监督。这样模型就能在噪声数据中学会辨别哪些标注是可信的哪些应该打折扣。训练时使用的基础损失是L1损失和Focal Loss的组合其中Focal Loss能让模型更关注难以区分的样本而不是把大量精力浪费在那些已经能轻松判断的简单样本上。图像级别的损失则单独使用Focal Loss。整套适配方案的参数效率非常高。AnomalyVFM总共有约3.458亿个参数其中只有约3540万个参数是可训练的其余的基础模型参数全部冻结不变。这意味着只需要训练大约10%的参数就能实现深度适配。训练在单张A100 GPU上只需约两小时。五、实战检验在九个工业数据集和九个医学数据集上一较高下研究团队在九个工业异常检测数据集上验证了AnomalyVFM的效果这九个数据集涵盖了MVTec AD、VisA、BTAD、MPDD、RealIAD、KSDD、KSDD2、DAGM和DTD-Synthetic基本涵盖了工业检测领域的主要场景。评测的主要指标包括图像级AUROC图像级别判断是否有问题的准确率指标和像素级AUROC像素级别定位缺陷位置的准确率指标。与此前最好的方法相比AnomalyVFM在图像级AUROC上取得了平均94.1%的成绩比第二名Bayes-PFL高出了3.3个百分点在像素级AUROC上取得了96.9%比第二名提升了0.9个百分点。在MVTec AD、VisA和RealIAD这三个使用最广泛的数据集上AnomalyVFM的成绩已经非常接近需要大量正常样本才能运行的全样本方法这是零样本方法此前从未达到过的高度。在定性效果上AnomalyVFM生成的缺陷分割图比竞争对手更为精细清晰能够定位竞争对手完全无法发现的缺陷对小缺陷和大缺陷都能有效处理。除了工业场景研究团队还在九个医学数据集上进行了测试包括脑部肿瘤检测、皮肤病变、息肉分割等。值得强调的是AnomalyVFM的训练数据完全是工业场景的合成数据没有任何医学数据但它在医学数据集上依然取得了有竞争力的结果——在像素级AUROC上比此前最好的方法提升了1.2个百分点。这说明AnomalyVFM学到的寻找异常这个能力具备很强的跨领域迁移性。六、各组件的贡献拆解之后看清楚每块砖的重量研究团队还做了一系列拆解实验分别移除或替换各个组件来量化每个设计选择的贡献。首先是数据过滤步骤的重要性。如果省掉第三步的过滤直接把所有生成的图像对都用来训练图像级AUROC会下降3.8个百分点像素级AUROC更是剧烈下降14.6个百分点。这个结果充分说明了两件事当前图像生成模型的指令遵从能力确实不够可靠以及训练数据的质量对模型效果有决定性的影响。其次是前景选择策略的作用。在生成缺陷时系统会先提取物体的前景区域确保缺陷被生成在物体上而非背景里。如果取消这个限制让缺陷可以随机出现在图像任何位置包括背景图像级AUROC下降1.4个百分点像素级AUROC下降5.8个百分点。这说明让模型专注于物体本身而非背景区域对于学习有效的异常检测至关重要。再看置信度加权损失的贡献。移除这个损失函数后图像级AUROC下降0.6个百分点像素级AUROC下降2.0个百分点。虽然降幅不是最大的但这个设计在处理不完美标注时确实起到了稳定器的作用。关于适配器的具体结构研究团队将LoRA替换为另外两种常见的参数高效适配技术AdaLN自适应层归一化和VPT视觉提示微调。替换后性能分别下降0.7和1.0个百分点图像级说明LoRA是最适合这个任务的选择但三种方法的结果都仍然大幅领先于此前的最好方法显示了整个框架的鲁棒性。关于生成模型的选择研究团队还用QWEN-Image和WAN这两种其他图像生成模型替换了默认的FLUX结果只有微小的性能下降图像级分别降0.1和0.4个百分点说明这套数据生成流程并不强依赖于特定的图像生成模型。关于数据规模当训练图像只有100张时性能已经比较可观随着数量增加到500张、1000张、10000张性能持续稳步提升。研究团队认为继续扩大数据规模有可能进一步提高性能但目前选择了10000张是为了与其他方法保持相似的训练规模。关于物体种类的多样性随着[Object]标签从20种增加到100种性能持续上升。当只有20种物体时性能大约相当于用真实的MVTec AD15个物体类别训练的水平随着物体种类的扩充模型的泛化能力持续增强。在LoRA的秩rank可以理解为适配器的学习容量上研究团队测试了32、64、128三个设置结果差异很小说明模型对这个参数的选择不敏感。关于主干模型的大小研究团队测试了使用RADIO的ViT-B较小、ViT-L中等默认和ViT-H较大三种规格。ViT-L表现最好ViT-H略差——研究者认为ViT-H可能需要更多更丰富的数据才能充分发挥其能力。七、骨干通用性DINOv2、DINOv3、RADIO都能受益AnomalyVFM的一个重要特性是它与具体的视觉基础模型无关可以作用于任何基于Transformer结构的视觉模型。研究团队分别测试了DINOv2、DINOv3和RADIO三种不同的基础模型。三种模型在经过AnomalyVFM的改造合成数据集LoRA适配器之后都取得了显著的提升。以图像级AUROC为基准DINOv2从83.0%提升到90.2%提升了7.2个百分点DINOv3从85.3%提升到91.5%提升了6.2个百分点RADIO从89.1%提升到94.1%提升了5.0个百分点。像素级AUROC的提升更为惊人三种模型分别提升了13.0、7.2和12.0个百分点。从这组数据还可以看出单独加入合成数据集不改变适配策略和单独加入LoRA适配器不改变数据集都能带来提升但两者结合时效果最好说明两个方向的改进是互补的而非重叠的。对比来看同样用合成数据训练CLIP类方法AACLIP、AnomalyCLIP、FAPrompt、AdaCLIP、Bayes-PFL时效果几乎没有变化有些方法甚至略有下降。这有力地证明了数据多样性不足的问题是视觉基础模型特有的瓶颈CLIP类方法因为依靠语言概念知识对这个问题天然不敏感所以换了数据也无济于事而视觉基础模型一旦获得多样的数据并进行深度适配潜力就完全不同了。八、推断速度快到让对手们难以置信除了准确率AnomalyVFM在推断速度上也大幅领先。按照EfficientAD的标准测试协议在NVIDIA A100 GPU上AnomalyVFM处理单张图像只需20.5毫秒而Bayes-PFL需要208.5毫秒AdaCLIP需要82.4毫秒。AnomalyVFM比最接近的竞争对手快了整整4倍比最慢的竞争对手快了10倍。这种速度优势在工业检测场景中有极大的实际价值——流水线不等人。九、小样本学习的加分项零样本打底少量样本登顶研究团队还探索了另一种玩法把已经训练好的零样本AnomalyVFM用少量正常样本再微调50次迭代看看能不能在少样本few-shot场景下表现出色。实验在MVTec AD和VisA两个数据集上进行分别测试了1张、2张、4张正常样本的情况。结果非常亮眼AnomalyVFM在MVTec AD的所有设置1样本、2样本、4样本上都取得了最高成绩在VisA的1样本设置下也是第一。具体数字是在MVTec AD 4样本设置下达到98.2%的图像级AUROC而专门为少样本场景设计的INP-Former只有97.6%PromptAD只有96.6%。这说明AnomalyVFM不仅是一个强大的零样本异常检测器还是一个高质量的视觉骨干网络能够支持少样本甚至全样本的异常检测任务潜力值得期待。归根结底这项研究打破了一个长期存在的误解在零样本异常检测这个任务上纯视觉模型并非天生弱于视觉-语言模型。它们落后只是因为数据不够多样、改造不够深入。一旦补足了这两个短板视觉模型反而能更好地发挥其对视觉细节的天然敏感性取得更好的表现。当然这套方案目前也有明显的局限。数据生成阶段大约需要在A100 GPU上运行一整天这是主要的时间成本不过好消息是同一批数据可以被所有不同的视觉基础模型共享使用相当于一次性投入。另外虽然AnomalyVFM在医学图像上表现不错但研究团队尝试用图像生成模型直接生成医学图像时效果不佳如果未来能在医学领域专门微调生成模型可能进一步提升医学场景下的性能。由此可见用眼睛找问题这件事AI正在走向越来越接近甚至超越人类质检员的水平而且不再需要提前认识每一种被检测的物体。这对制造业、医疗影像诊断乃至更多需要异常识别的领域都意味着部署门槛的大幅降低。---QAQ1AnomalyVFM的合成数据集是如何保证质量的为什么不直接用现有的工业数据集训练A现有工业数据集如MVTec AD物体种类有限15类缺陷类型也较少73种多样性不足导致纯视觉模型难以学到泛化能力强的异常检测特征。AnomalyVFM通过FLUX图像生成模型自动生成100种物体、204种缺陷类型的合成图像然后用DINOv2特征对比来过滤掉未能成功生成缺陷的图像约30%被过滤保证了数据质量。这套流程不需要任何真实标注完全自动化。Q2AnomalyVFM用的LoRA适配器和普通的模型微调有什么区别A普通微调通常直接修改模型的所有参数成本高且容易破坏原有能力。LoRA是在关键位置插入轻量旁路模块原模型参数冻结不变只训练这些新增的小模块。AnomalyVFM总共只有约10%的参数是可训练的3540万/3.458亿训练只需约两小时但模型内部处理图像的方式确实发生了实质性改变而不只是在输出端加一个判断头。Q3AnomalyVFM在没见过医学图像的情况下为什么还能在医学数据集上表现出色AAnomalyVFM学习的是一种通用的寻找视觉异常能力而不是特定类别的缺陷知识。只要图像中存在与周围环境视觉上不一致的区域模型就能捕捉到。脑肿瘤在核磁共振图像中、皮肤病变在皮肤图像中本质上都是局部视觉异常与工业缺陷在视觉结构上有相通之处。这种跨领域迁移能力正是深度视觉特征适配带来的泛化效果。