我用GPT-4分析了真实医疗理赔数据，结果出乎意料

去年，一个医疗科技公司的产品负责人告诉我，他们在"用GPT-4分析理赔数据"。

我问，具体怎么用？

"把理赔记录发给它，让它识别规律。"

我问，效果怎么样？

沉默了一秒。

"挺……有前景的。"

我在这个行业做了够长时间，做过真实的测试。

不是Demo。不是为了让PPT好看而设计的概念验证。

是真实的评估，真实的理赔数据，真实的结果标签，真实地去测量GPT-4的输出到底有没有做到我们需要它做的事。

这篇文章，是我真正测出来的东西。

An image to describe post

先说清楚：理赔数据到底是什么

在讲LLM能做什么之前，有必要说清楚理赔数据的本质。因为数据结构决定了一切可能性的边界。

医疗理赔数据是账单记录。

患者每发生一次医疗服务，包括门诊、检查、处方、住院，医疗机构就会向保险方提交一张理赔单，申请报销。这张单子包含一组结构化字段：

诊断编码（ICD-10）
操作编码（CPT/HCPCS）
医疗机构标识（NPI）
服务日期、服务地点
药物编码（NDC）

理赔数据不是什么： 临床叙述。

没有医生的病程记录，没有化验值，没有患者自述症状，没有影像发现。

理赔捕捉的是被计费的内容，不是临床上发生的事情。

这个区别至关重要。

LLM本质上是语言模型，在文本上训练出来的。你给它的输入越有表达力，它能做的就越多。

而理赔记录不是真正意义上的"文本"。它们是结构化编码，大多数是数字或字母数字标识符，几乎没有自然语言内容。

所以，在你跑任何LLM实验之前，最该先问的问题是：你到底在试图解决什么问题，它真的需要一个语言模型吗？

我们测试的5个场景

我们做了一个结构化评估，覆盖市场上团队正在尝试的五类典型任务。

每个场景，我会告诉你：测了什么、怎么测的、发现了什么、以及能不能上生产。

场景一：ICD-10编码解释与摘要生成

任务： 给定一个患者的诊断编码列表，生成一份通俗易懂的临床摘要。

为什么团队想做这个： 理赔数据对非临床用户（护理管理师、行政人员、利用率审查团队）来说极难解读。一个管着60个患者的护理师，不想每次看到Z87.891都去查它是什么意思。

测试结果： ✅ 表现最好的场景，可以推进生产。

ICD-10编码在GPT-4的训练数据里有大量覆盖。模型能准确解释绝大多数编码，转化成通俗语言，并从诊断列表里综合出连贯的临床叙述。

对一个同时有2型糖尿病、慢性肾病3期和高血压的患者，GPT-4能生成准确反映共病情况的可读摘要，甚至能指出这些疾病之间的相关临床关系。

需要注意的失效模式： 对于罕见或高度专科化的编码，模型偶尔会生成听起来合理但实际错误的临床关系。而且它不知道自己不知道，它不会对不熟悉的编码标注不确定性。

高风险患者需要临床参考来源做验证。

能上生产吗？ 能，需要加验证层，高风险患者需要人工复核。

场景二：患者理赔历史的模式识别

任务： 给定一个患者的纵向理赔记录，识别临床风险模式，病情轨迹恶化、治疗缺口、潜在护理空白。

为什么团队想做这个： 临床医生读患者档案时会寻找规律。LLM能对理赔数据做同样的事吗？

测试结果： ⚠️ Demo效果和真实评估之间的差距，在这里暴露无遗。

在Demo语境里，GPT-4的输出令人印象深刻。它流畅地叙述患者的就医历史，识别出表面上的护理空白，生成听起来有临床合理性的观察。

在对照结果标签的真实评估里，情况要复杂得多。

核心问题： GPT-4做的不是统计意义上的模式识别，而是语言补全。当你给它一段理赔历史并要求它识别风险模式，它生成的是听起来像临床分析师会说的话——而不是真正检测到了预测结果的模式。

在我们的评估中，GPT-4的表现与一个阅读同样记录的非临床人工审查员相当——有价值，但谈不上变革性。

同一任务上，用带标签理赔数据训练的梯度提升模型持续优于GPT-4。那个模型学到了真实的统计关系。GPT-4在对其训练分布做语言补全。

GPT-4真正增加价值的地方 是边缘案例——理赔历史不寻常、结构化模型置信度较低的患者。对这些患者，GPT-4对临床背景的推理能力补充了结构化模型做不到的东西。

混合方案——结构化模型处理大多数人群，LLM负责边缘案例分析——比两者单独使用都更有效。

能上生产吗？ 作为独立风险模型，不能。作为训练好的预测模型的补充，用于边缘案例分析，可以。

场景三：编码准确性与审计支持

任务： 给定一张理赔单，标记潜在的编码错误、过度编码模式，或诊断与操作编码之间的不一致。

为什么团队想做这个： 编码错误和欺诈、浪费、滥用（FWA）是保险方的重大成本驱动因素。人工审计成本高昂。

测试结果： ⚠️ 好坏参半，细节很重要。

GPT-4擅长发现明显的不一致，比如操作编码与诊断不符、临床上不合理的编码组合、服务地点编码与操作不匹配。对于简单的、规则可表达的不一致，它的表现与设计良好的规则集相当——而后者早就存在，而且运行成本更低。

GPT-4潜在的增量价值在于规则无法很好捕捉的情况，跨越某个医疗机构账单历史的模式级不一致，或单张理赔单上各自站得住脚、但累积起来可疑的编码选择。

可靠性问题很突出。 FWA检测有真实后果。对被错误标记的医疗机构，和错过真实欺诈的保险方，都是如此。GPT-4的幻觉率即使在百分比上很低，在规模化时也会转化为相当数量的错误标记。

能上生产吗？ 作为对人工审计队列进行分诊的工具，可以。任何不利行动前必须有明确的人工复核，不能作为决策系统。

场景四：预先授权支持

任务： 给定一个预先授权申请（通常包含诊断编码、操作编码，有时含临床备注），评估该申请是否符合报销标准。

为什么团队想做这个： 预先授权是医疗行业最劳动密集的行政流程之一。

测试结果： ❌ 这是我最谨慎的场景，也是我会最强烈反对快速推进的场景。

在受控评估中，对结果明确的案例，GPT-4的表现是扎实的。

问题出现在分布的中间地带——那些真正模糊的案例，需要临床判断，取决于临床记录里有而理赔数据里没有的文档。

这些模糊案例，恰恰是比例最高的高风险案例。

成本高昂的手术，拒绝后有显著临床后果的治疗方案都在这里。

除了准确率，还有监管考量。联邦和州层面都在积极关注AI在预先授权决策中的应用。多个州已经通过或正在考虑立法，要求对AI辅助拒绝授权决定进行人工复核。

在没有清晰监管合规策略的情况下，在预先授权决策上建立生产系统，是重大风险。

能上生产吗？ 对结果明确的审批案例，作为路由效率工具，也许可以。任何接近自动拒绝建议的场景，在有充分人工监督和监管法律咨询之前，不行。

场景五：会员触达与护理空白识别

任务： 根据会员的理赔历史，生成个性化触达内容，识别具体的护理空白，起草鼓励参与的沟通内容。

为什么团队想做这个： 个性化会员触达已被证明能提升参与度和预防保健率。大规模生成真正个性化的触达内容，靠人力代价高昂。

测试结果： ✅ 第二个推荐推进生产的场景。

GPT-4非常擅长这个任务。给定一个会员的理赔历史，它能准确识别具体的护理空白（过期的筛查、未管理好的慢性病、用药依从性问题），并生成可读、适当个性化、临床准确的触达信息。

在用户测试中，临床审查员对GPT-4基于理赔数据生成的触达内容的评级，与有经验的护理协调员手写的内容相当。这是一个有意义的基准。

注意事项：

第一，个性化的质量取决于理赔数据的质量——意味着只有被计费和被捕捉的内容才可见。通过自费门诊、网络外护理、或根本未被正式诊断管理的状况，是隐形的。

第二，任何LLM生成的面向会员的沟通，发出之前都需要临床审核。一句自信的错误陈述，代价很高。

第三，AI生成会员沟通内容的HIPAA和州隐私法规考量，仍在演变中。

能上生产吗？ 能，需要在发送前增加临床审核步骤，并做适当的信息披露。

真实评估之后的诚实判断

五个场景下来，浮现出一个一致的规律：

GPT-4在本质上是语言任务的场景表现最好： 把编码翻译成人类语言、生成可读摘要、起草个性化沟通。这些任务，模型的核心能力（复杂的语言生成）直接对应了问题本身。

GPT-4在本质上是统计任务的场景表现不如训练好的模型： 预测哪些患者会恶化、识别哪些账单模式相对于人群基线是异常的。这些任务需要统计模式识别，语言生成能力无法替代。

GPT-4在高风险后果性输出的任务上引入了不可忽视的风险： 预先授权决策、FWA判定、无人工复核即使用的临床风险评分。幻觉率即使很低，在高风险决策场景中规模化后也是不可接受的。

对你的产品意味着什么

从语言任务入手。 编码解释、会员沟通、护理空白摘要——这些场景LLM能力和实施风险的比值最好，也最容易向持怀疑态度的临床stakeholder展示价值。

不要用LLM替换你的预测模型。 如果你有一个表现良好的梯度提升模型在做风险分层任务，GPT-4用同样的理赔数据不会超过它。它可能能补充它——特别是在边缘案例推理或为模型输出生成人类可读的解释上——但不能替换它。

先建评估基础设施，再建产品。 没有严格评估，就没有资格说你在做医疗AI。定义你的基准真值，定义你的指标，在带标签数据上跑你的模型，在上线给临床医生或会员之前，搞清楚你的失效模式。

认真对待监管环境。 医疗行业不适合"快速行动、事后修复"。AI在临床决策支持、预先授权和会员沟通中的监管格局是动态的。把法务和合规审查排进开发时间线，不是最后才想起来的补充。

对stakeholder诚实说出模型不能做什么。 你能建立的最持久的信任，来自于准确呈现系统局限性。"这是我们的模型擅长的，这是需要人工复核的，这是我们验证两者的方式"，比"我们的AI分析你的理赔数据并识别机会"是更强的位置。

关于成本和延迟，一个没人说的事

在有意义的保险方或医疗系统规模上，运行GPT-4分析理赔数据不是小批量操作。

对一个中型Medicaid管理型医疗组织的会员人群跑GPT-4，即使是异步的、有批处理的，成本会快速累积。GPT-4的每token成本，乘以那个数据量，数字不小。

对于需要定期处理大规模人群的场景，值得评估一个更小的、微调过的模型能否以显著更低的成本达到相当的表现。

在通用性重要的地方用GPT-4。在任务定义明确、数据量大的地方，用微调过的小模型。

一句话总结

LLM在医疗理赔分析里是真实有用的。

不是最乐观的推介说的那种方式，不是通用模式识别器，不是训练好的预测模型的即插即用替代品，不是高风险工作流里的自主决策者。

而是以其真实架构所暗示的方式：作为复杂的语言系统，能以以前需要大量人力的方式读取、翻译、摘要和生成具有临床意识的文本。

从LLM的理赔数据应用中获得最多价值的团队，都是对自己诚实的，关于他们需要这项技术做什么，以及不需要它做什么。

那种诚实，是其他一切的前提。

下期预告（Module 18）：RAG in Healthcare——如何构建一个真正能读懂临床指南的医疗知识库产品，以及决定成败的架构选择。

觉得有用？转发给正在评估医疗AI技术选型的朋友 👇

评论区告诉我：你见过的最被高估的医疗LLM应用场景是什么？

尤哥说 专注于医疗数据与AI产品化的深度内容。作者有医疗数据产品从业背景，覆盖Medicaid、价值医疗、人口健康管理等领域实战经验。

#医疗，AI，产品，数据，大模型