【深伪检测论文阅读第一期】Triple-modality interaction for deepfake detection on zero-shot identity

张开发

• 2026/5/21 2:26:47 • 15 分钟阅读

分享文章

【深伪检测论文阅读第一期】Triple-modality interaction for deepfake detection on zero-shot identity

类别大模型or免训练标题Triple-modality interaction for deepfake detection on zero-shot identity核心对象深度伪造检测技术手段三重模态交互视觉音频文本应用场景零样本身份这篇论文通过融合视觉音频文本三种模态TMI-Former模型利用三重模态交互弥补单模态/双模态的局限结合残差连接、蒸馏令牌等设计解决了“未训练身份零样本”和“数据有限单样本”下的深度伪造检测问题显著提高了模型对“新身份、新模态组合”的泛化能力。零样本学习的完整定义是模型在训练阶段没有见过某一类别的任何样本但在测试阶段却能正确识别该类别。实现方式通常依赖语义信息或辅助信息例如训练时教模型认识“猫”和“狗”并告诉它“斑马长得像马有条纹”。测试时给它看斑马的图片虽然没有训练过斑马但模型能通过“像马有条纹”的描述推断出这是斑马。输入与输出Input Output输入Input数据类型视频Video。具体模态从视频中拆分的视觉中间帧图像、音频MFCC频谱、文本语音转文字置信度≥0.9。特殊设定训练集与测试集的人物身份Identity完全不重叠Zero‑shot Identity。输出Output二分类结果Real真或 Fake假。核心方法Method模型名称TMI‑FormerTriple‑Modality Interaction Transformer。技术路线采用两阶段、四步骤架构。视觉特征提取利用 Vision Transformer 提取视觉特征生成“类令牌”Class Token和“蒸馏令牌”Distillation Token。表示与交互将音频和文本特征与视觉令牌拼接加入位置编码通过 Transformer 编码器进行三重模态的注意力交互。残差连接将输入与输出的视觉特征通过 ReLU 激活函数连接防止视觉信息在跨模态交互中丢失。晚期融合分别对类令牌和蒸馏令牌进行分类取平均得到最终结果。创新点Innovation场景创新构建了零样本身份Zero‑shot Identity和单样本One‑shot的评估基线专门解决数据稀缺和新身份泛化的问题。结构创新提出 TMI‑Former首次在 Deepfake 检测中显式引入文本模态实现了视觉、音频、文本的三重模态交互。细节创新引入蒸馏令牌Distillation Token和残差连接解决了多模态融合中视觉特征易被淹没或丢失的问题。场景创新构建零样本身份评估基线训练/测试集身份完全不重叠专门测试模型对“未见过的新人物”的泛化能力。TMI‑Former 的核心思想是用视觉特征作为“骨架”让音频和文本特征来“修补”和“验证”它。它不是一次性把三种模态扔进网络而是分成了视觉为主、音文为辅的两个交互阶段。实验效果Results对比单模态 AI准确率提升 18.75%–19.5%单模态约为 49.5%–50.25%。F1‑score 提升 0.2238–0.3561。对比现有多模态 AI准确率提升 1.44%–19.75%现有多模态约为 0.19%–18.06%。F1‑score 提升 0.0146–0.4169。消融实验验证去除残差连接后模型性能显著下降准确率最高下降约 7.56%证明该组件对保留视觉信息至关重要。一句话总结这篇论文提出了一种叫TMI‑Former的模型通过融合视频、音频、文本三种模态并配合特殊的残差连接设计成功解决了在没见过的新人物零样本和数据很少的情况下依然能有效检测 Deepfake 的问题。

更多文章

前端开发 2026/5/11 8:33:04

房屋建筑学——变形缝

一、相关概念1、建筑变形缝在建筑物因昼夜温差、不均匀沉降以及地震可能引起结构破坏的变形的敏感部位或其它必要的部位，预先设缝将整个建筑物沿全高断开，令断开后建筑物的各部分成为独立的单元，或者是划分为简单、规则、均一的段&#xff0c…

张开发

前端开发 2026/5/13 4:59:19

HsMod：55+创新功能重新定义炉石传说体验

HsMod：55创新功能重新定义炉石传说体验【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod 🌟 项目核心价值概述 HsMod作为基于BepInEx框架的炉石传说模改插件&#xf…

张开发

前端开发 2026/5/16 13:34:58

WPS-Zotero插件：告别文献管理烦恼，实现跨平台学术写作自由

WPS-Zotero插件：告别文献管理烦恼，实现跨平台学术写作自由【免费下载链接】WPS-Zotero An add-on for WPS Writer to integrate with Zotero. 项目地址: https://gitcode.com/gh_mirrors/wp/WPS-Zotero 还在为论文写作中的文献引用而头疼吗&…

张开发

前端开发 2026/5/15 4:01:31

H5-Dooring实战指南：零代码高效制作专业H5页面的5个关键步骤

H5-Dooring实战指南：零代码高效制作专业H5页面的5个关键步骤【免费下载链接】h5-Dooring H5 Page Maker, H5 Editor, LowCode. Make H5 as easy as building blocks. | 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台. 项目地址: http…

张开发

前端开发 2026/5/20 11:52:56

DDrawCompat：让经典软件重获新生的兼容性解决方案

DDrawCompat：让经典软件重获新生的兼容性解决方案【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDrawCompa…

张开发

前端开发 2026/5/21 0:44:50

seo关键词挖掘工具哪个好_seo数据分析工具哪个最强

选择最佳SEO关键词挖掘工具和SEO数据分析工具指南 SEO关键词挖掘工具哪个好在当今数字营销的竞争激烈环境中，选择合适的SEO关键词挖掘工具至关重要。这不仅能帮助你找到最相关、最受欢迎的关键词，还能显著提升你的网站流量和搜索引擎排名。市面上哪些…

张开发

前端开发 2026/5/13 17:59:45

实战演练：基于快马平台与方锐理念构建短视频智能配乐应用

最近在做一个短视频创作的小工具，发现给视频配乐真是个技术活。正好看到网易方锐的AI音乐技术挺火的，就想着能不能用它的理念做个智能配乐助手。在InsCode(快马)平台上试了试，没想到还真搞出了一个能跑起来的demo，分享下我的实现思…

张开发

前端开发 2026/5/16 13:30:37

BettaFish项目部署后，为什么你的MindSpider爬虫跑不起来？排查Node.js与psycopg依赖的完整流程

BettaFish项目部署后MindSpider爬虫故障排查指南：从Node.js到psycopg的深度解析当你终于完成BettaFish舆情项目的部署，准备启动MindSpider爬虫模块大展身手时，却遭遇了令人沮丧的运行时错误——这种体验就像赛车手在起跑线上发现引擎无法点火…

张开发

前端开发 2026/5/15 7:02:37

探索Azure REST API与Power BI的无缝集成

在数据驱动决策的今天，如何高效获取并分析数据成为每个数据分析师和企业的核心问题。Azure REST API提供了一种强大的方式来访问Azure平台上的各种服务数据。而Power BI作为一款数据可视化工具，如何与Azure REST API无缝对接以实现自动化数据更新，是我们今天要探讨的话题。 …

张开发

前端开发 2026/5/12 6:52:15

NormalMap-Online：本地GPU加速的3D材质增强解决方案

NormalMap-Online：本地GPU加速的3D材质增强解决方案【免费下载链接】NormalMap-Online NormalMap Generator Online 项目地址: https://gitcode.com/gh_mirrors/no/NormalMap-Online 在3D建模领域，表面细节的呈现往往决定了模型的真实感与品质。…

张开发

前端开发 2026/5/11 18:45:41

nlp_structbert_sentence-similarity_chinese-large 与传统方法对比：TF-IDF、Word2Vec与深度语义模型

nlp_structbert_sentence-similarity_chinese-large 与传统方法对比：TF-IDF、Word2Vec与深度语义模型 1. 引言在中文文本处理的世界里，判断两句话是不是一个意思，一直是个挺有意思的挑战。比如，“今天天气真好”和“今日阳光明…

张开发

前端开发 2026/5/11 14:51:24

基于Qwen2.5-VL的Chord视觉定位模型：多目标检测实战案例

基于Qwen2.5-VL的Chord视觉定位模型：多目标检测实战案例 1. Chord视觉定位模型概述 1.1 什么是视觉定位技术视觉定位（Visual Grounding）是计算机视觉领域的一项重要技术，它能够将自然语言描述与图像中的具体区域建立对应关系。…

张开发

【深伪检测论文阅读第一期】Triple-modality interaction for deepfake detection on zero-shot identity

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

房屋建筑学——变形缝

HsMod：55+创新功能重新定义炉石传说体验

WPS-Zotero插件：告别文献管理烦恼，实现跨平台学术写作自由

H5-Dooring实战指南：零代码高效制作专业H5页面的5个关键步骤

DDrawCompat：让经典软件重获新生的兼容性解决方案

seo关键词挖掘工具哪个好_seo数据分析工具哪个最强

实战演练：基于快马平台与方锐理念构建短视频智能配乐应用

BettaFish项目部署后，为什么你的MindSpider爬虫跑不起来？排查Node.js与psycopg依赖的完整流程

探索Azure REST API与Power BI的无缝集成

NormalMap-Online：本地GPU加速的3D材质增强解决方案

nlp_structbert_sentence-similarity_chinese-large 与传统方法对比：TF-IDF、Word2Vec与深度语义模型

基于Qwen2.5-VL的Chord视觉定位模型：多目标检测实战案例

【深伪检测论文阅读 第一期】Triple-modality interaction for deepfake detection on zero-shot identity​

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

【深伪检测论文阅读第一期】Triple-modality interaction for deepfake detection on zero-shot identity