stEnTrans:基于Transformer的深度学习方法在空间转录组学中的革命性应用
摘要
本文介绍了一种基于Transformer架构的深度学习方法stEnTrans,用于增强空间转录组学数据的分辨率和预测未测量区域的基因表达。空间转录组学技术能够测量组织中基因表达模式的同时保留空间信息,但现有技术存在序列深度浅或分辨率低的问题。stEnTrans通过自监督学习方法,利用基因表达数据本身作为监督信息,无需额外数据即可提升基因表达的分辨率和预测能力。研究在六个数据集上验证了stEnTrans的性能,结果显示其在增强分辨率和预测基因表达方面优于其他深度学习和传统插值方法。此外,该方法还有助于发现空间转录组学中的空间模式,并丰富更多生物学上有意义的通路。
原理
stEnTrans的工作原理基于Transformer架构,通过自监督学习进行基因表达数据的插值和增强。模型分为预训练(Pretrain)和增强(Enhance)两个阶段。在预训练阶段,模型通过下采样生成低分辨率(LR)基因表达数据作为输入,原始基因表达数据作为标签进行训练。在增强阶段,模型使用原始空间基因表达数据作为输入,输出高分辨率(HR)数据。stEnTrans的核心在于利用Transformer编码器提取组织内所有基因的空间分布全局特征,通过自注意力机制捕捉输入序列中不同位置之间的依赖关系,从而实现基因表达数据的高分辨率增强。
流程
stEnTrans的工作流程包括数据预处理、自监督学习、预训练和增强阶段。首先,对基因表达矩阵和空间坐标矩阵进行预处理,生成基因表达图和是否在组织内的矩阵。在预训练阶段,通过下采样生成低分辨率基因表达数据,并使用Transformer编码器进行训练,目标是恢复原始分辨率的基因表达数据。在增强阶段,输入原始基因表达数据,通过Transformer编码器输出高分辨率基因表达数据。整个流程通过自监督学习,利用数据本身作为监督信息,无需额外标签数据。
应用
stEnTrans的应用前景广泛,特别是在需要高分辨率空间转录组学数据的生物学研究中。该方法能够帮助研究人员更准确地理解基因在组织中的空间分布,对于肿瘤异质性、胚胎发育和神经解剖学等领域的研究具有重要意义。此外,stEnTrans还能辅助发现新的生物学通路和基因表达模式,为疾病治疗和药物开发提供新的视角和工具。
