首尔大学团队的新思路:用拍照片的AI来“读懂“大脑扫描视频

张开发
2026/4/17 1:18:23 15 分钟阅读

分享文章

首尔大学团队的新思路:用拍照片的AI来“读懂“大脑扫描视频
这项由首尔国立大学电气工程系、人工智能研究所IPAI、大脑认知科学系及心理学系联合开展的研究以arXiv预印本形式于2026年4月4日公开发布论文编号为arXiv:2604.03619v1。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。一台核磁共振扫描仪开机以后每隔一两秒钟就会拍下一张人类大脑的立体照片。一次普通的静息态扫描大约持续十到二十分钟最终产生几百张这样的立体图像摞在一起就构成了一段关于大脑活动的慢动作视频。医生和神经科学家想从这段视频里读出很多东西这个人有没有注意力缺陷症他大概多少岁他的智力水平如何男性女性这些问题听起来简单但想让计算机自动回答却是一件极其烧钱又烧脑的事。核心困难在于数据量太过庞大。每一张立体照片都是一个三维的数据块里面包含几十万个细小的体素点可以理解成三维版本的像素。当计算机需要同时盯着几百张这样的三维图像来分析动态规律时它的内存往往会当场撑爆。于是科学家们一直在做一件权宜之计把这段几百帧的视频硬是剪成只有二十帧的片段喂给模型就好比你要分析一部两小时的电影却只被允许看其中两分钟。这样做虽然能省内存但很多藏在长时程波动里的信息就白白丢掉了。研究团队想解决的正是这个只能看两分钟的窘境。他们提出了一个名叫 TABLeT 的方法全称是二维自编码脑部潜在变换器Two-dimensionally Autoencoded Brain Latent Transformer。这个方法的核心思路出人意料既然训练一个专门读懂大脑扫描的压缩工具太贵、太难何不直接借用一个已经在海量普通照片上训练好的图像压缩AI事实证明这个听起来有点投机取巧的想法效果比专门为大脑数据训练的工具还要好。一、大脑扫描数据到底难在哪里把大脑扫描想成一栋立方体形状的乐高积木城堡。这栋城堡有96层每层是96×96格的网格整栋城堡共有将近九十万块小积木。每一块积木记录了一个小小脑区在某一瞬间的活跃程度。一次完整的扫描会给出几百个这样的城堡一个接一个排成时间轴。要分析这些数据研究人员历史上走过两条路。第一条路叫感兴趣区域法ROI-based就是预先划定脑子里的几百块功能分区只盯着每个分区的平均活跃度把这些平均数整理成一张相关系数表再喂给模型学习。这种做法省事省钱但代价很明显划分方式一旦选错结果就会跑偏更关键的是大量精细的空间细节被平均掉了就像把整栋城堡的积木数量平均成一个数字你根本看不出哪层哪块有异常。第二条路叫体素法Voxel-based就是直接把每一块小积木都塞进模型不做任何预先归纳。这条路保留了全部信息理论上能学到更丰富的模式也让模型可解释性更强——毕竟你能直接指出模型在关注脑子的哪个部位。然而代价同样明显九十万块积木乘以几百帧数据量大到普通显卡根本装不下。目前最先进的体素法模型比如SwiFT和TFF每次最多只能同时处理二十帧相当于把那部两小时的大脑活动电影剪到只有两分钟来学。这就引出了一个根本性的悖论保留细节就爆内存省内存就丢细节。TABLeT的团队想找到第三条路既保留细节又能看更长的时间段。二、借用拍照片的AI来压缩大脑数据解决方案的灵感来自一个看似不相关的领域图像生成。近年来AI绘画和图像压缩领域诞生了一类叫做深度压缩自编码器DCAEDeep Compression Autoencoder的工具其中有一款叫 dc-ae-f32c32-in-1.0 的模型能把一张256×256像素的普通照片压缩成只有64个摘要数字token压缩比高达32倍同时还能把照片重建得很清晰。它原本是用来加速AI绘图的跟大脑扫描毫不相干。研究团队决定做一个大胆的实验把大脑扫描图直接塞给这个拍照片的AI压缩工具看看它能不能压缩出有意义的东西。具体操作是这样的。每一帧三维大脑扫描那栋96层的乐高城堡被沿三个方向各切成一叠薄薄的二维切片就像把城堡横着切、纵着切、侧着切得到三组切片图。每张切片被复制成三个通道模仿普通照片的RGB结构然后一张一张地喂给那个图像压缩工具得到一小块压缩后的摘要数字块。三个方向切出来的摘要按空间位置对齐、拼接在一起最终整栋三维城堡就被浓缩成了区区27个摘要单元token每个单元携带3072维的信息。从将近九十万个数据点压缩到27个——压缩比超过三万倍。更重要的是这些27个摘要单元携带的信息足够丰富后续的分析模型可以从中读出足够多的有用信号。由于压缩过程只需要做一次压缩结果可以提前存储起来后续训练过程完全不需要再动这个压缩工具计算成本几乎可以忽略不计。这就像提前把几百部电影剪成每部27帧的精华片段存进硬盘之后每次学习都直接读精华片段就行。三、借来的工具竟然比专门订制的更好用这里有一个很自然的疑问为什么不自己训练一个专门处理三维大脑扫描的压缩工具研究团队确实这样做了作为对比。他们用首尔大学能获取的8178个英国生物银行UK Biobank受试者的大脑扫描数据训练了一个三维版本的深度压缩自编码器花了100个训练轮次调好了所有参数确保充分收敛。然后他们做了两方面比较一是重建质量也就是把压缩后的摘要还原成图像看还原结果跟原图有多像二是实际任务表现也就是用压缩出来的摘要来做性别分类、年龄预测等任务看哪个工具的摘要更有用。结果让人出乎意料。在重建质量上无论是细节保真度PSNR峰值信噪比、结构相似性SSIM还是功能连接模式的保留程度那个从来没见过大脑扫描图的拍照片工具都略胜一筹。在下游任务表现上基于拍照片工具摘要训练出来的模型多数指标也优于基于专门训练工具的模型。这个结果背后的道理其实并不神秘。那个图像压缩工具是在数以亿计的各种各样的照片上训练出来的学到了极为通用的底层视觉规律——如何提取边缘、纹理、形状、明暗变化。这些底层规律在大脑扫描图里同样适用大脑切片也有清晰的灰质/白质边界也有纹理变化也有明暗分布。而那个专门训练的三维工具数据量相对有限而且大脑扫描图的多样性远不如自然照片学到的特征反而不够泛化。研究团队还尝试过把那个图像压缩工具在大脑扫描数据上再微调一下结果每次微调都让重建质量变差。他们的解释是微调会破坏那些在海量照片上积累的通用特征而本地的大脑数据集太小、太同质撑不起一次有效的领域适配。由此研究团队得出一个明确立场直接用现成的二维图像压缩工具不做任何修改这是处理大脑扫描数据的更优选择既省钱又省事效果还更好。四、压缩之后用什么来分析把每一帧三维大脑扫描压缩成27个摘要单元之后研究团队构建了一个相对简洁的分析骨架Transformer编码器。Transformer是一种在自然语言处理比如ChatGPT和视觉AI领域都大放异彩的结构它最擅长的事情就是在一段序列里找出不同位置之间的关联关系。在TABLeT的设计里每一帧大脑图像对应27个摘要单元整个扫描序列默认取256帧就是256×276912个单元排成的一条长链。这条长链被送进TransformerTransformer用自注意力机制让每个单元都能看到序列中所有其他单元从而捕捉跨时间、跨空间的长程依赖关系。最后模型在序列开头附加了一个特殊的[CLS]标记把整条序列的信息汇聚到这个标记上用它来做最终预测。为了让这个Transformer在处理几千个单元的长序列时不至于太慢研究团队借鉴了大语言模型领域的若干技巧使用分组查询注意力grouped query attention来减少注意力计算时的内存占用使用旋转位置编码rotary positional encoding来帮助模型感知序列位置使用PyTorch内置的高效注意力算子来加速计算。整个模型共12层Transformer14个注意力头其中只有2个键值头这是分组查询注意力的设计要求。训练时每次从每位受试者的完整扫描序列里随机抽取256帧喂进模型。评估时把完整序列切成若干个256帧的片段分别跑一遍再把所有片段的输出取平均得到最终预测结果。五、实际跑下来效果怎么样研究团队在三个大型数据集上做了系统测评。英国生物银行UK Biobank包含8178名中老年人用来预测性别和年龄人类连接组计划HCP包含1061名健康年轻人用来预测性别、年龄和认知智力得分ADHD-200数据集包含533名儿童和青少年用来诊断注意力缺陷多动障碍ADHD。对比对象涵盖了五种感兴趣区域法模型XGBoost、BrainNetCNN、脑网络Transformer、meanMLP、Brain-JEPA和两种体素法模型TFF和SwiFT。对于SwiFT还额外测试了延长到50帧输入的版本。TABLeT在大多数任务上超过了所有对比方法。以几个代表性数字为例在HCP数据集的认知智力预测上TABLeT的均方误差MSE为0.835而SwiFT在50帧下是0.865在20帧下是0.940差距相当可观皮尔逊相关系数ρ衡量预测值与真实值的线性关联程度越接近1越好TABLeT达到0.392SwiFT50帧是0.354SwiFT20帧只有0.297。在ADHD诊断的AUC指标ROC曲线下面积衡量分类器综合性能上TABLeT是0.729SwiFT50帧是0.701SwiFT20帧是0.693。性别分类这种本身就很依赖静态结构特征、对时间长度不敏感的任务TABLeT与SwiFT的差距就小一些属于势均力敌但在需要捕捉更长时程动态模式的任务上TABLeT的优势就比较突出了。研究团队还做了一个控制实验当TABLeT也只用20帧或50帧时它和SwiFT的性能非常接近说明性能提升确实主要来自更长的时间窗口而不是压缩方式本身的魔法。六、节省了多少资源数字说话在同一块NVIDIA RTX A6000显卡上、相同批次大小4的条件下研究团队做了精确的资源对比。当输入50帧时SwiFT需要的显存是TABLeT的7.33倍训练速度上SwiFT每个轮次耗时是TABLeT的3.8倍。更直观的对比是在大约30GB显存预算下SwiFT最多能处理40帧的输入而TABLeT可以处理384帧——几乎是十倍的差距。SwiFT在超过50帧时会直接报内存溢出错误而TABLeT可以一路延伸到几百帧。这意味着在同样硬件条件下研究者原本只能看两分钟电影现在可以看将近二十分钟。对于那些要研究大脑慢波振荡、全脑觉醒波动等需要几十秒才能展开的生理现象这个差距可能是从根本上无法做研究和可以做研究之间的分野。七、在更动态的任务上优势更加明显研究团队还专门测试了一个更能体现时间动态的任务健康大脑网络HBN电影观看实验。在这个数据集里680名受试者在接受扫描时观看了两部不同的电影任务是让模型根据大脑活动判断受试者正在看哪部电影。这是一个对时间动态高度敏感的任务因为不同电影在不同时刻刺激的脑区不同必须捕捉到随时间演变的激活模式才能做出准确判断。在这个任务上当时间窗口相同50帧时TABLeT的准确率74.7%略高于SwiFT71.7%AUC0.826 vs 0.810和F1分数0.750 vs 0.717也均有提升。当TABLeT的时间窗口延长到250帧时准确率跳升到82.1%AUC达到0.976F1达到0.847——与50帧相比提升幅度相当显著。这个结果为更长时间窗口在动态任务中更有价值提供了直接的实验支撑也暗示TABLeT在任务态fMRI受试者在执行特定任务时的扫描这类应用上可能有更大的发挥空间。八、自学让模型变得更聪明研究团队还引入了一种自监督预训练策略叫做掩码标记建模Masked Token ModelingMTM。这个策略的灵感来自语言模型里的完形填空随机遮住输入序列里50%的摘要单元让模型根据剩余的摘要单元来预测被遮住的部分用真实值和预测值之间的L1差异作为训练信号。为了防止模型作弊——比如通过看第100帧第5个位置的未遮掩单元来直接推断第101帧第5个位置的遮掩单元——研究团队采用了管道遮掩策略在时间轴上对每一帧使用完全相同的遮掩图案这样某个空间位置如果被遮掩它在所有时间帧上都同时被遮掩模型无法靠时间邻居来作弊必须真正理解空间上下文才能完成预测。预训练在英国生物银行的8178个受试者数据上进行然后把预训练好的模型迁移到人类连接组计划数据集上做微调只需要10个训练轮次远少于从头训练的50个轮次。微调后的模型在几乎所有指标上都进一步提升性别分类准确率从93.8%升至95.3%年龄预测均方误差从0.773降至0.650认知智力预测均方误差从0.835降至0.796皮尔逊相关系数从0.392升至0.435。每项任务的提升幅度不同但整体方向一致证明这种先自学、再做题的预训练路线对TABLeT是有效的。九、模型在关注大脑哪里体素法的一个重要优势是可解释性因为整个流程从原始体素到最终预测都是可微分的所以可以用梯度反向传播的方式推算出模型做出这个判断时最依赖大脑哪些区域的信号。研究团队用积分梯度Integrated Gradients方法在HCP数据集的性别分类任务上做了可视化分析选取模型高置信度≥75%正确分类的女性受试者计算她们第一帧扫描对应的梯度贡献图再取平均。结果显示模型最关注的区域集中在内侧前额叶皮层mPFC、后扣带回/楔前叶PCC/PCu和丘脑Thalamus。这几个区域在神经科学文献中有大量关于性别差异的记录与默认模式网络的性别差异研究高度吻合。这说明TABLeT学到的不是随机噪声而是真实存在的、有生物学意义的脑区激活模式差异。十、还有哪些有趣的细节研究团队还测试了三轴聚合方式是否重要。他们分别只用水平切轴位、纵切矢状位或侧切冠状位单一方向的摘要来训练与三轴合并版本做对比。结果发现不同单轴的性能有一定波动在某些任务上某个轴更好在另一些任务上又换了个轴领先而三轴合并版本在所有任务上都保持稳定的较高水平消除了对特定切割方向的依赖。这证明三轴合并策略是一种鲁棒的设计选择。此外研究团队还测试了不同的打包粒度27个单元每个维度3072维、9个单元每个9216维和3个单元每个27648维。三种方案在下游任务上的表现差异不大说明在保持总信息量不变的前提下具体如何切分打包对模型性能影响有限。说到底TABLeT这项研究给出的核心信息是大脑扫描数据并不需要一个专门从头训练的压缩工具因为通用的自然图像压缩AI在大脑扫描这个陌生领域里表现得出人意料地好——甚至比专门训练的工具还好。借助这个免费的压缩工具原本只能看两分钟大脑电影的模型一下子可以看二十分钟内存需求降到原来的七分之一训练速度快了将近四倍各项预测指标也普遍提升。这项研究并没有宣称解决了所有问题。研究团队明确指出TABLeT目前对每一帧独立进行压缩没有在压缩环节本身捕捉帧与帧之间的时间依赖Transformer对所有单元一视同仁没有显式利用空间或时间结构。这些都是未来可以继续改进的方向。更关键的是当前测试主要集中在静息态扫描和几类结构性预测任务上对于真正需要长时程动态建模的任务比如监测药物效果随时间的变化或追踪神经退行性疾病的进展TABLeT的潜力还有待更大规模的验证。归根结底这项工作提示了一件在科研中有普遍意义的事领域之间的边界有时候没有想象中那么牢固一个在完全不同场景下磨砺出来的工具可能恰好适合解决另一个领域的难题。对于有兴趣深入研究的读者可以通过 arXiv:2604.03619v1 找到这篇论文的完整版本相关代码也已在论文中附上的GitHub地址公开。QAQ1TABLeT是如何把一个三维大脑扫描压缩成27个单元的ATABLeT把每一帧三维大脑图像沿水平、纵向、侧向三个方向各切成一叠二维切片每张切片复制成三通道后送入预训练的图像压缩工具DCAE得到压缩后的摘要数据块。三个方向的摘要按空间位置对齐后拼接最终形成27个摘要单元每个单元携带3072维信息整个过程只需做一次并可缓存结果。Q2用普通图像训练的压缩工具为什么能处理大脑扫描数据A普通图像压缩工具在海量自然照片上训练学到了提取边缘、纹理、形状等通用底层视觉特征的能力这些特征在大脑切片图里同样存在比如灰质白质边界、组织纹理变化。相比之下专门在相对有限的大脑扫描数据上训练的压缩工具因为数据量少、多样性低学到的特征反而没那么通用重建质量和下游任务表现都略逊一筹。Q3TABLeT的掩码预训练是怎么做的为什么要用管道遮掩A掩码预训练随机遮住50%的摘要单元让模型根据剩余单元来预测被遮掩部分用预测值与真实值的L1差异来训练。管道遮掩是指同一个空间位置在所有时间帧上同时被遮掩防止模型通过查看相邻帧同一位置的未遮掩单元来作弊。这迫使模型真正理解空间结构规律而非靠时间冗余蒙混过关从而学到更有迁移价值的表示。

更多文章