医疗AI多模态Transformer入门基础教程(非常详细),看视网膜无创查肾病看这篇就够了!

张开发
2026/4/8 21:32:36 15 分钟阅读

分享文章

医疗AI多模态Transformer入门基础教程(非常详细),看视网膜无创查肾病看这篇就够了!
本文题为《Amultimodal transformer system for noninvasive diabetic nephropathy diagnosis via retinal imaging》由Zheyi Dong,Xiaofei Wang,Sai Pan等共同完成作者单位包括中国人民解放军总医院第一医疗中心肾脏科、中国人民解放军总医院第三医疗中心高级眼科、英国剑桥大学临床神经科学系、北京糖尿病研究与护理重点实验室等多家机构。论文发表于《npj digital Medicine》。本文为在不进行肾活检的情况下区分糖尿病肾病DN和非糖尿病肾病NDRD开发并验证了一种基于变压器的深度学习系统Trans-MUF用于利用非活检多模态眼底影像和临床特征数据对DN和NDRD进行分类所生成的可视化图在肾脏科医生辅助诊断时提升了其表现同时对决策可视化图谱进行了统计分析促进模型的可解释性以及对DN和NDRD的深入理解。01 摘要DN和NDRD的治疗和预后存在巨大差异但肾活检作为唯一诊断DN和NDRD的途径成本高昂且后勤困难的问题亟需解决。因此本研究开发了基于变换器的深度学习DL系统用于通过非侵入性多模态眼底影像和临床特征数据检测DN和NDRD。我们的Trans-MUF在内部回顾组中AUC为0.98095%CI0.979至0.980且在前瞻性数据集AUC0.989,95%CI0.987至0.990和多中心、跨机及多数据集AUC0.932,95%CI0.931至0.939中具有优异的泛化性。此外肾脏科医生的诊断准确率可通过DL系统的可视化辅助提升21%。本文为无需活检即可自动区分DN和NDRD奠定了基础。02 研究背景一、研究问题糖尿病肾病DN是全球末期肾病的主要原因需要肾脏移植或透析.DN也是临床肾脏病学转诊的最常见原因之一约影响了一半的2型糖尿病T2DM患者。DN和NDRD发展为终末期肾病的风险比显著不同DN进展为终末期肾病的风险7.1%远高于NDRD0.89%。DN和NDRD的治疗和预后完全不同例如治疗NDRD新性逆转性发展障碍需要个性化管理和更多医疗资源。漏诊会导致慢性肾病CKD进展加速。因此准确识别NDRD患者无论是单独还是与DN联合极为重要。二、研究难点肾穿刺是唯一可靠的诊断方法但因高成本、有创性无法在大量T2DM合并CKD患者中普及。临床指南推荐基于糖尿病病程、糖尿病视网膜病变DR等临床特征初筛但诊断NDRD的特异性仅40.63%漏诊率高。三、相关工作传统机器学习模型仅利用临床特征数据维度较低提供的信息相对有限难以准确且稳健地诊断。部分深度学习研究尝试利用眼底影像但未挖掘视网膜病变与肾病的深层关联且未结合临床特征实现多模态融合利用非侵入性光学成像数据在基于人工智能AI的NDRD筛查中尚未得到充分探讨。03 模型设计图一 跨MUF系统的示意图一、整体架构Trans-MUF为多模态融合模型整体由三大功能子网构成通过多模态输入的眼底影像和临床因素Trans-MUF系统可以输出DN/NDRD自然诊断/死亡诊断诊断预测结果以及可解读的可视化图谱和病理归因评分的辅助输出。跨MUF系统由三个子网组成包括ImgLesion子网b因子子网和c诊断子网。二、核心子网设计输入-工作-输出ImgLesion子网处理眼底影像类数据输入患者原始眼底彩色照片先对照片做像素级分割以圈出视盘、视网膜病变区域并生成病变分割图再通过WAM ResNet提取影像局部细节特征、借助Transformer编码器提取影像全局关联特征最后融合两类影像特征输出眼底影像的高维特征向量、病变标注图Factor子网处理临床数值类数据输入经筛选的糖尿病病程、收缩压、估算肾小球滤过率、血红蛋白、糖化血红蛋白这5项核心临床指标先对临床指标做归一化处理再将低维数值指标按有创/无创分类后通过专用网络提取特征最后拼接生成高维的临床特征向量并将其作为输出Diagnosis子网进行多模态特征融合和最终诊断输入ImgLesion子网输出的影像特征向量与Factor子网输出的临床特征向量将两类高维特征进行深度融合并通过分类算法分析计算以此判断患者为糖尿病肾病DN或非糖尿病肾病NDRD同时生成模型决策的可视化依据主输出为DN/NDRD的分类结果及预测概率辅助输出为可解释的可视化地图、病变归因量化分析。04 实验设置一、数据集构建本研究以经肾穿刺病理标注的2型糖尿病合并慢性肾病患者为数据来源按“训练验证外部测试”划分涵盖不同采集时间、设备、医疗机构及影像质量确保数据多样性共5个子集分别为训练集、内部验证集、前瞻性验证集、多中心外部验证集、非标准角度验证集。二、数据预处理本研究针对眼底影像和临床特征分别开展标准化处理。影像方面先剔除低质量影像并统一格式与尺寸简化病变标注类型临床特征方面先通过逻辑单变量回归筛选核心指标并进行归一化处理并按获取难度分组消除数据噪声和量纲影响适配模型输入需求。三、性能评估指标为区分诊断分类和病变分割两类任务设置评估指标如下诊断分类核心5项AUCROC曲线下面积、准确率、灵敏度、特异性、F1-score病变分割4项像素级准确率、DSCDice相似系数、AUROC、AUPRC。四、对比与消融实验设计对比实验与经典深度学习模型对比验证Trans-MUF的优越性包括单模态影像模型DenseNet-121、AlexNet、VGG-16、多模态模型VGG-16临床特征、DAFT并与3名持证肾病医生的人工诊断结果对比消融实验通过移除模型核心模块/输入模态验证各部分的必要性包括移除临床特征、移除眼底影像、移除Transformer模块、移除CNN模块。05 结果与分析一、模型基础性能Retina-DKD内部验证集影像级AUC0.980、准确率93.6%、灵敏度100%、特异性85.0%、F1-score94.6%患者级AUC0.990、准确率90.9%、灵敏度100%实现DN无漏诊大幅提升NDRD诊断准确率。图二 疾病分类和病灶分割的实验结果示意图。二、泛化性与鲁棒性前瞻性验证集影像级AUC0.989、准确率96.3%患者级AUC0.979、准确率97.6%性能与内部集基本一致适配临床实时数据多中心跨设备验证集影像级AUC0.932、准确率85.5%虽略有下降但仍保持高水准适配不同设备/医疗机构非标准角度验证集AUC仍超80%证明模型对低质量影像具有良好的鲁棒性适配临床真实采集场景。三、对比实验结果优于经典深度学习模型相较多模态模型DAFTAUC提升约5%93.3%→98.0%单模态影像模型性能显著低于多模态模型证明多模态融合的必要性优于人工诊断3名肾病医生平均诊断准确率70.43%而Trans-MUF患者级准确率93.18%模型在捕捉影像/临床特征的潜在关联上具有显著优势。四、消融实验结果移除眼底影像AUC降至90.2%、准确率89.3%性能大幅下降证明眼底影像是诊断核心特征移除临床特征AUC降至95.1%、准确率92.5%说明临床特征可补充影像信息提升诊断精准度移除Transformer/CNN模块AUC均降至96%左右证明CNN与Transformer的融合是模型高性能的关键。五、临床辅助价值模型可视化辅助可使医生诊断准确率从70.43%提升至90.9%灵敏度从59.72%提升至94.4%提升幅度达21%仅依靠模型可视化地图眼底影像医生诊断准确率仍可达88.6%以上证明可视化模块可有效辅助临床决策。六、模型可解释性分析图三 模型可解释性分析。病变分割图是模型诊断的核心依据权重41.98%证明视网膜病变与DN/NDRD的鉴别高度相关DN的诊断核心病变为纤维增生膜、色素沉着、硬性渗出可视化地图散在分布于病变区域NDRD可视化地图集中于视网膜血管为临床诊断提供了新的病理规律临床特征中收缩压SBP对诊断贡献最大与临床中高血压是肾病进展的重要危险因素的结论一致证明模型结果与临床认知相符。06 结论该研究针对糖尿病肾病DN与非糖尿病肾病NDRD无创鉴别诊断的临床痛点研发了基于Transformer的多模态深度学习模型Trans-MUF通过融合眼底影像与5项核心临床特征以三子网ImgLesion子网、Factor子网、Diagnosis子网架构实现端到端诊断经多中心、多类型数据集验证模型展现出优异的精准度、泛化性与鲁棒性不仅显著优于传统临床诊断及其他深度学习模型还能通过可视化模块将医生诊断准确率提升21%有效减少不必要的肾穿刺为肾病无创诊断提供了新方法同时挖掘出糖尿病视网膜病变与肾病的关联为相关病理生理研究开辟新方向不过研究仍存在样本量偏小、缺乏多民族数据等局限性。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章