"突破性研究:专门构建的LLM系统如何革新临床决策支持"

Answering real-world clinical questions using large language model based systems

摘要

本文探讨了使用基于大型语言模型(LLM)的系统来回答现实世界临床问题的方法。文章指出,尽管通用LLM在处理医疗领域的自然语言查询方面表现出色,但它们在提供相关和基于证据的答案方面存在局限性。相比之下,采用检索增强生成(RAG)和代理型LLM系统在回答临床问题时表现出更高的相关性和证据基础性。特别是代理型ChatRWD系统,它能够回答新颖的问题,为临床决策提供了新的证据生成途径。文章强调,虽然通用LLM不应直接用于临床决策,但专门构建的文献检索系统和代理型系统相结合,可以显著提高相关证据的可获得性,从而支持证据基础的医疗实践。

原理

本文介绍的LLM系统通过两种主要方法来增强其回答临床问题的能力:检索增强生成(RAG)和代理型LLM系统。RAG方法通过LLM从精心策划的知识源中检索信息,然后编译这些信息以生成答案。这种方法通过OpenEvidence系统实现,该系统使用LLM来总结从知识库中检索到的相关出版物和实践指南。另一方面,代理型LLM系统如ChatRWD,结合了自然语言接口和证据生成平台,能够访问医疗记录数据。在这种系统中,LLM作为副驾驶,将临床意图与底层的目的构建代理相结合,生成即时证据。ChatRWD通过将临床查询转换为结构化的PICO研究设计,并通过代理处理,能够生成即时RWE以响应问题。

流程

本文的评估过程包括选择50个临床问题,并将这些问题提交给不同的LLM系统进行回答。这些系统包括通用LLM(如ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5)、RAG-based系统(OpenEvidence)和代理型系统(ChatRWD)。对于每个系统生成的答案,进行了一系列的审查步骤,包括引文审查、研究完整性审查和临床审查。临床审查由九名不同专业的医生进行,他们根据标准医学评分标准对答案进行评分,评估其相关性、证据质量和可操作性。最终,通过多数投票和统计分析,确定了每个系统的性能。

应用

本文的研究结果表明,专门构建的LLM系统在提供相关和基于证据的临床答案方面具有显著优势。这些系统,特别是结合了RAG和代理型方法的系统,有望在未来集成到医生的工作流程中,支持即时证据的生成和现有文献的快速总结,从而提高医疗决策的证据基础性。这种集成将有助于实现真正的证据基础医疗实践,特别是在处理新颖或特定临床问题时。