ACES:革新医疗健康领域机器学习任务定义与数据提取的自动化系统
摘要
本文介绍了一种名为ACES(Automatic Cohort Extraction System for Event-Stream Datasets)的自动化队列提取系统,旨在解决医疗健康领域机器学习(ML)研究中的可重复性问题。ACES通过提供一种直观且表达力强的配置语言,简化了ML任务和队列的定义,并能够从实际的电子健康记录(EHR)数据中自动提取符合定义标准的患者记录。该系统不仅提高了任务定义的可共享性和可重复性,还重新定义了研究人员与EHR数据交互的方式,有望显著提升医疗健康领域ML研究的可重复性和互操作性。
原理
ACES的核心工作原理基于两个主要组件:一是高度直观和表达力的配置语言,用于定义数据集特定的概念和数据集无关的包含/排除标准;二是自动从现实世界数据中提取符合这些定义标准的患者记录的管道。ACES能够处理多种数据格式,包括Medical Event Data Standard(MEDS)和EventStreamGPT(ESGPT),并且可以应用于任何数据集,前提是能够提取出任务特定的谓词。通过这种设计,ACES确保了任务定义的可共享性和可重复性,同时提高了系统的灵活性和易用性。
流程
ACES的工作流程包括以下几个简单步骤:
- 安装ACES:通过pip安装ACES及其依赖。
 - 定义数据集:准备符合MEDS、ESGPT或直接谓词格式的数据集。
 - 定义任务:使用ACES提供的配置语言定义ML任务。
 - 运行ACES CLI:通过命令行工具运行ACES,指定任务和数据路径。
 - 获取输出:ACES返回一个统一的数据框,包含所有符合任务定义的患者实例。
例如,用户可以通过简单的命令行指令 
$ aces-cli cohort_name="$TASK" data.path="$DATA_PATH"来提取队列,并利用返回的数据框进行后续的ML任务和基准测试。 
应用
ACES的应用前景广泛,不仅限于医疗健康领域,还可以扩展到金融、气候、社交媒体等其他领域,适用于任何可以格式化为事件流的数据。ACES的灵活性和易用性使其成为推动ML方法在医疗健康领域发展的关键工具,特别是在提高数据处理的可重复性和互操作性方面。
