中科院1区|IF10+：加大医学系团队利用GPT-4+电子病历分析，革新肝硬化并发症队列识别

在当下的科研领域，人工智能尤其是大语言模型的迅猛发展，正为各个学科带来前所未有的机遇与变革。在医学范畴，从疾病的早期精准筛查，如AI预测系统可提前数年察觉阿尔茨海默病等千余种疾病风险，到影像诊断中显著降低骨折漏诊率，AI的应用已逐步渗透。在生物医学研究方面，单细胞RNA测序技术结合人工智能，为深入解析细胞异质性开拓了新思路。于此同时，大语言模型在医学知识问答、临床报告生成等场景中也崭露头角。在这样充满活力与创新的大背景下，一篇发表于知名期刊Hepatology的论文，另辟蹊径，巧妙运用生物信息方法及其他手段，在肝病研究领域取得了令人瞩目的成果，接下来就让我们深入探究这篇论文的精妙之处。

https://doi.org/10.1097/HEP.0000000000001115

正式介绍

基本信息

论文标题：利用GPT-4评估基于编码的肝硬化及其并发症识别的阳性预测值

发表期刊：Hepatology，中科院医学大类分区1区，IF=12.9002

发表日期：2025年6月1日在线发表

研究背景

临床需求矛盾：肝硬化及并发症的队列识别依赖诊断编码（如 ICD 码），但编码准确性低（既往研究 PPV 仅 43%-91%），且无法区分“活动性”与“历史性”病情；手动 chart review 虽为金标准，却耗时耗力，难以规模化。技术机遇：大语言模型（LLM）如 GPT-4 具备非结构化文本解析能力，可高效处理电子健康记录（EHR），为解决上述问题提供可能。

研究思路

数据提取：从 UCSF 医疗中心提取2013-2022 年 3788 份肝硬化相关出院小结，基于OMOP 编码分为肝硬化、肝性脑病、腹水等 5 类队列。双轨验证设计：金标准：随机抽取 5%-10% 病例进行手动 chart review，由资深医生校正。LLM 方法：使用GPT-4-turbo-128k 设计零-shot 提示，识别出院小结中“活动性”病情，对比手动 review 计算准确性（Accuracy、PPV 等）。规模化评估编码性能：以 LLM 分类为“银标准”，计算传统 OMOP 编码在全部 3788 份小结中的 PPV，评估编码可靠性。

研究亮点

方法学突破：首次在肝病领域将 GPT-4 作为“银标准”规模化评估诊断编码性能，替代部分手动 review。临床价值：证明 LLM 可准确区分肝硬化并发症的“活动性”（Accuracy 87.8%-98.8%），为 EHR 数据的高效利用提供技术支撑。成本效益：LLM 单例分析成本仅 0.05 美元，显著低于手动 review，为大规模队列研究提供经济可行的方案。

数据来源和生物信息方法

1、数据来源

数据来源：UCSF 医疗中心 2013-2022 年肝硬化患者的电子健康记录（EHR），包含 3788 份出院小结，涉及 2747 例患者。

2、生物信息方法

GPT-4 部署：通过 UCSF 合规的 Versa API 调用 GPT-4-turbo-128k，使用零-shot 提示工程，温度参数调优至 0.0 和 0.7。提示工程：设计 5 组针对性提示，识别肝硬化及 4 种并发症的活动性，如“请判断该患者在住院期间是否存在活动性肝性脑病，并说明临床管理措施”。统计分析。

主要结果

1、传统编码vs手动chart review（金标准）

肝硬化识别 PPV 为 82.2%；并发症中腹水 PPV 最高（72.8%），肝性脑病最低（41.7%）。小结：传统编码对肝硬化本身识别尚可，但对并发症（尤其是肝性脑病）准确性差，提示编码无法可靠反映“活动性”病情。

2、GPT-4vs手动chart review（金标准）

肝硬化识别Accuracy 最高达 98.8%（温度 0.0），PPV 98.9%；肝性脑病 Accuracy 96.3%（温度 0.7），腹水 PPV 达 100%（温度 0.0 和 0.7）；胃肠道出血与自发性细菌性腹膜炎 Accuracy 分别为 87.8% 和 90.7%。小结：GPT-4 对肝硬化及并发症的“活动性”识别准确性显著高于传统编码，尤其在腹水等场景中接近完美（PPV 100%）。

3、传统编码 vs GPT-4（银标准）

肝硬化PPV 79.8%；并发症PPV 53.9%-67.6%，其中肝性脑病（53.9%）和腹水（55.3%）仍较低。小结：以LLM为银标准，传统编码局限性进一步凸显，提示需结合NLP技术优化队列识别。

4、LLM 成本与效率分析

单例分析成本0.05 美元，总 token 消耗随病例数增加而线性增长（如肝硬化 3788 例消耗 1881 万tokens，成本 188.18 美元）。小结：LLM 方法兼具高效性与经济性，适合大规模队列研究。

研究结论

GPT-4等LLM可准确识别肝硬化及并发症的“活动性”（Accuracy 87.8%-98.8%），性能显著优于传统诊断编码。以LLM作为“银标准”可规模化评估编码性能，发现传统方法对并发症识别的不足。LLM方法成本低、可扩展，有望替代部分手动chart review，成为临床研究队列识别的新标准。