[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill

张开发
2026/4/18 3:32:00 15 分钟阅读

分享文章

[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill
论文网址Spatial-temporal attention for video-based assessment of intraoperative surgical skill | Scientific Reports目录1. 心得2. 论文逐段精读2.1. Abstract2.2. Introduction2.2.1. Related work2.3. Method2.3.1. Supervised spatial attention2.3.2. Multi-task learning baseline model2.3.3. Unsupervised temporal attention2.3.4. Integration with networks2.3.5. No attention network2.4. Experiments and discussion2.4.1. Dataset2.4.2. Data processing2.4.3. Results2.4.4. Discussion2.5. Conclusion1. 心得1每个模块都有多个选择看起来有点混乱主要是也没有给整个大图2. 论文逐段精读2.1. Abstract①目的开发和验证基于视频评估术中手术技能novice n.新手初学者(修会等的)初学生初学修士(或修女)尚未赢过大赛的赛马2.2. Introduction①基于视频的评估Video-based assessmentVBA可以有效评估手术技能2.2.1. Related work①技能评估方法直接从视频、仪器运动、或相互作用②第一行为有监督下的注意力图第二列为无监督的2.3. Method①使用从ImageNet预训练的ResNet-50然后用线性映射把特征变换为注意力图2.3.1. Supervised spatial attention①空间注意力模块其中selection和aggregation只会选其中一种时间特征是可选输入,SAMG是空间注意力五个绿色方块是五层卷积层②其中是高是宽是帧数。时空特征是来源于LSTM的隐藏状态③图中的计算步骤其中三个是不同的权重矩阵④如果器械尖端落在像素点的CNN感受野范围内就计1⑤损失函数其中⑥提出的聚合操作把特征图每个像素点乘上注意力权重⑦提出的选择操作找出注意力值最大的像素点坐标然后取这个坐标的特征值2.3.2. Multi-task learning baseline model①在上图添加关键点定位分支和损失②计算高斯热图2.3.3. Unsupervised temporal attention①时间注意力机制LSTM每一帧隐藏状态先用最后一帧隐藏态和所有帧算相似度然后归一化这些相似度得到时间注意力最后用注意力乘回特征2.3.4. Integration with networks①集成不同网络CNN-LSTM、CNN-GRU、CNN-Transformer2.3.5. No attention network①无注意力机制其中空间注意力模块被平均聚合取代2.4. Experiments and discussion2.4.1. Dataset①源数据集使用Video-based assessment of intraoperative surgical skill | International Journal of Computer Assisted Radiology and Surgery | Springer Nature Link和Objective assessment of intraoperative technical skill in capsulorhexis using videos of cataract surgery | International Journal of Computer Assisted Radiology and Surgery | Springer Nature Link的数据集数据集包含99段白内障撕囊capsulorhexis视频处理至640*480分辨率和59帧每秒医生为撕囊评分2~5Likert scale②目标数据集纳入51段统一机构但几年后采集的视频不包含尖端注释③数据集间统计差异④数据集标签差异2.4.2. Data processing①训练时每个视频采样256帧的片段随机选定起始帧然后每8帧采集一次一直重复②测试时采样三次片段取平均③数据正确随机裁剪、色彩抖动、水平翻转和随机旋转仪器尖端坐标一起变④模型实现⑤用Adam优化器初始学习率为1e-3批量大小为2多任务批次为1⑥解冻ResNet-50骨干网的最后一个块⑦⑧交叉验证五折2.4.3. Results①对比实验②消融实验③替换时间模型架构2.4.4. Discussion①~2.5. Conclusion~

更多文章