个性化血液生物标志物预测:一种基于深度表示学习的新方法

Lifestyle-Informed Personalized Blood Biomarker Prediction via Novel Representation Learning

摘要

本文介绍了一种新颖的框架,用于预测未来的血液生物标志物值并通过学习的生活方式数据(如身体活动和睡眠)来定义个性化的参考值。该方法通过深度学习技术,特别是深度度量学习(DML),捕捉生物标志物与生活方式因素之间的复杂关系。利用英国生物银行(UK Biobank)的数据,研究显示这种方法在预测临床诊断方面优于传统的和现有的最先进的表示学习技术。通过结合生活方式因素和生物标志物模型,该方法能够从单次实验室访问中改善未来实验室值的预测,为开发更精确的风险分层工具和定制预防性护理策略奠定了基础。

原理

本文提出的方法通过两个主要步骤实现个性化血液生物标志物的预测:首先,学习一个基于度量的映射,该映射能够根据个体的血液生物标志物、人口统计学和生活方式因素在潜在空间中准确嵌入个体。其次,使用学习到的表示与当前感兴趣的生物标志物的值相结合,训练生物标志物特定的模型来预测未来的生物标志物值,这些值可以用作下一次访问的个性化参考。该方法引入了一种对传统三元组损失的宝贵修改,旨在产生更紧凑的每个类别的嵌入,并且与不相似的类别更好地分离。通过利用传统三元组框架并提出基于数据点(锚点、正样本、负样本)之间距离的新目标,该模型能够学习将相似的数据点映射得更近,将不相似的数据点映射得更远。

流程

该方法的工作流程包括数据预处理、模型训练和预测三个阶段。首先,从UK Biobank中选择参与者的年龄、性别、所有可用的血液生物标志物、代谢当量任务(MET)分数的身体活动以及自我报告的睡眠和身体活动小时数。然后,确保所有特征至少有75%的完整性,并去除任何不满足这一条件的特征。接下来,将数据根据生物性别分开,并进行分位数归一化。在模型训练阶段,使用个体的 demographics、血液测试和生活方式信号作为输入,训练模型以最小化具有相同条件的个体之间的距离。最后,在预测阶段,利用学习到的表示以及当前感兴趣的生物标志物的值来预测未来的生物标志物值。

应用

该方法的应用前景广泛,特别是在临床设置中,它能够从单次实验室访问中预测未来的血液生物标志物值,从而实现早期疾病检测、更及时的干预和最终向个性化医疗的转变。此外,该个性化建模方法为开发更准确的风险分层工具和定制预防性护理策略提供了基础,有助于改善患者预后和优化治疗策略。