【深伪检测论文阅读 第一期】Triple-modality interaction for deepfake detection on zero-shot identity​

张开发
2026/4/4 18:28:20 15 分钟阅读
【深伪检测论文阅读 第一期】Triple-modality interaction for deepfake detection on zero-shot identity​
类别大模型or免训练标题Triple-modality interaction for deepfake detection on zero-shot identity​核心对象深度伪造检测技术手段三重模态交互视觉音频文本应用场景零样本身份这篇论文通过融合视觉音频文本三种模态TMI-Former模型利用三重模态交互弥补单模态/双模态的局限结合残差连接、蒸馏令牌等设计解决了“未训练身份零样本”和“数据有限单样本”下的深度伪造检测问题显著提高了模型对“新身份、新模态组合”的泛化能力。零样本学习的完整定义是模型在训练阶段没有见过某一类别的任何样本但在测试阶段却能正确识别该类别。实现方式通常依赖语义信息或辅助信息例如训练时教模型认识“猫”和“狗”并告诉它“斑马长得像马有条纹”。测试时给它看斑马的图片虽然没有训练过斑马但模型能通过“像马有条纹”的描述推断出这是斑马。输入与输出Input Output输入Input数据类型视频Video。具体模态从视频中拆分的视觉中间帧图像、音频MFCC频谱、文本语音转文字置信度≥0.9。特殊设定训练集与测试集的人物身份Identity完全不重叠Zero‑shot Identity。输出Output二分类结果Real真​ 或 Fake假。核心方法Method模型名称TMI‑FormerTriple‑Modality Interaction Transformer。技术路线采用两阶段、四步骤架构。视觉特征提取利用 Vision Transformer 提取视觉特征生成“类令牌”Class Token和“蒸馏令牌”Distillation Token。表示与交互将音频和文本特征与视觉令牌拼接加入位置编码通过 Transformer 编码器进行三重模态的注意力交互。残差连接将输入与输出的视觉特征通过 ReLU 激活函数连接防止视觉信息在跨模态交互中丢失。晚期融合分别对类令牌和蒸馏令牌进行分类取平均得到最终结果。创新点Innovation场景创新构建了零样本身份Zero‑shot Identity和单样本One‑shot的评估基线专门解决数据稀缺和新身份泛化的问题。结构创新提出 TMI‑Former首次在 Deepfake 检测中显式引入文本模态实现了视觉、音频、文本的三重模态交互。细节创新引入蒸馏令牌Distillation Token和残差连接解决了多模态融合中视觉特征易被淹没或丢失的问题。场景创新构建零样本身份评估基线训练/测试集身份完全不重叠专门测试模型对“未见过的新人物”的泛化能力。TMI‑Former​ 的核心思想是用视觉特征作为“骨架”让音频和文本特征来“修补”和“验证”它。它不是一次性把三种模态扔进网络而是分成了视觉为主、音文为辅的两个交互阶段。实验效果Results对比单模态 AI准确率提升 18.75%–19.5%单模态约为 49.5%–50.25%。F1‑score 提升 0.2238–0.3561。对比现有多模态 AI准确率提升 1.44%–19.75%现有多模态约为 0.19%–18.06%。F1‑score 提升 0.0146–0.4169。消融实验验证去除残差连接后模型性能显著下降准确率最高下降约 7.56%证明该组件对保留视觉信息至关重要。一句话总结这篇论文提出了一种叫TMI‑Former​的模型通过融合视频、音频、文本三种模态并配合特殊的残差连接设计成功解决了在没见过的新人物零样本和数据很少的情况下依然能有效检测 Deepfake 的问题。

更多文章