实时手术错误检测新突破:Chain-of-Gesture Prompting框架引领机器人辅助手术安全新纪元
摘要
本文介绍了一种名为“Chain-of-Gesture Prompting”的新型实时端到端错误检测框架,用于机器人辅助微创手术(RMIS)视频中的错误检测。该框架受自然语言处理中的链式思维提示启发,通过两个推理模块模拟专家外科医生的决策过程,从而提高手术安全性和效率。具体来说,该框架包括一个手势视觉推理模块和一个多尺度时间推理模块,能够在不依赖手势标签的情况下,实时检测手术视频中的错误。实验结果显示,该方法在公共基准数据集JIGSAWS上的性能优于现有技术,处理每帧视频仅需6.69毫秒。
原理
Chain-of-Gesture (COG) 提示框架的核心在于两个推理模块:手势视觉推理(GVR)模块和多尺度时间推理(MSTR)模块。GVR模块利用Transformer和注意力架构对手势进行提示,而MSTR模块则采用多阶段时间卷积网络,通过慢速和快速路径提取时间信息。这两个模块协同工作,模拟专家外科医生的决策过程,从而实现对手术视频中错误的实时检测。
流程
COG框架的工作流程如下:首先,GVR模块通过语言提示和视觉嵌入,利用Transformer层和注意力层对手势进行定位和分割。然后,MSTR模块通过慢速和快速路径,分别在细粒度和粗粒度时间尺度上分析手术过程。最后,通过预测一致性损失,确保在不同时间尺度上的预测准确性和一致性。例如,在处理一个手术视频时,GVR模块首先识别出手势,然后MSTR模块分析这些手势在时间上的变化,最终检测出可能的错误。
应用
COG框架的应用前景广泛,特别是在机器人辅助微创手术领域。它可以实时检测手术中的错误,提高手术安全性和效率,同时也有助于手术教育和培训。此外,该框架的实时性和高效性使其在临床实践中具有很高的应用价值。
