去年,一个医疗科技公司的产品负责人告诉我,他们在"用GPT-4分析理赔数据"。
我问,具体怎么用?
"把理赔记录发给它,让它识别规律。"
我问,效果怎么样?
沉默了一秒。
"挺……有前景的。"
我在这个行业做了够长时间,做过真实的测试。
不是Demo。不是为了让PPT好看而设计的概念验证。
是真实的评估,真实的理赔数据,真实的结果标签,真实地去测量GPT-4的输出到底有没有做到我们需要它做的事。
这篇文章,是我真正测出来的东西。

先说清楚:理赔数据到底是什么
在讲LLM能做什么之前,有必要说清楚理赔数据的本质。因为数据结构决定了一切可能性的边界。
医疗理赔数据是账单记录。
患者每发生一次医疗服务,包括门诊、检查、处方、住院,医疗机构就会向保险方提交一张理赔单,申请报销。这张单子包含一组结构化字段:
- 诊断编码(ICD-10)
- 操作编码(CPT/HCPCS)
- 医疗机构标识(NPI)
- 服务日期、服务地点
- 药物编码(NDC)
理赔数据不是什么: 临床叙述。
没有医生的病程记录,没有化验值,没有患者自述症状,没有影像发现。
理赔捕捉的是被计费的内容,不是临床上发生的事情。
这个区别至关重要。
LLM本质上是语言模型,在文本上训练出来的。你给它的输入越有表达力,它能做的就越多。
而理赔记录不是真正意义上的"文本"。它们是结构化编码,大多数是数字或字母数字标识符,几乎没有自然语言内容。
所以,在你跑任何LLM实验之前,最该先问的问题是:你到底在试图解决什么问题,它真的需要一个语言模型吗?
我们测试的5个场景
我们做了一个结构化评估,覆盖市场上团队正在尝试的五类典型任务。
每个场景,我会告诉你:测了什么、怎么测的、发现了什么、以及能不能上生产。
场景一:ICD-10编码解释与摘要生成
任务: 给定一个患者的诊断编码列表,生成一份通俗易懂的临床摘要。
为什么团队想做这个: 理赔数据对非临床用户(护理管理师、行政人员、利用率审查团队)来说极难解读。一个管着60个患者的护理师,不想每次看到Z87.891都去查它是什么意思。
测试结果: ✅ 表现最好的场景,可以推进生产。
ICD-10编码在GPT-4的训练数据里有大量覆盖。模型能准确解释绝大多数编码,转化成通俗语言,并从诊断列表里综合出连贯的临床叙述。
对一个同时有2型糖尿病、慢性肾病3期和高血压的患者,GPT-4能生成准确反映共病情况的可读摘要,甚至能指出这些疾病之间的相关临床关系。
需要注意的失效模式: 对于罕见或高度专科化的编码,模型偶尔会生成听起来合理但实际错误的临床关系。而且它不知道自己不知道,它不会对不熟悉的编码标注不确定性。
高风险患者需要临床参考来源做验证。
能上生产吗? 能,需要加验证层,高风险患者需要人工复核。
场景二:患者理赔历史的模式识别
任务: 给定一个患者的纵向理赔记录,识别临床风险模式,病情轨迹恶化、治疗缺口、潜在护理空白。
为什么团队想做这个: 临床医生读患者档案时会寻找规律。LLM能对理赔数据做同样的事吗?
测试结果: ⚠️ Demo效果和真实评估之间的差距,在这里暴露无遗。
在Demo语境里,GPT-4的输出令人印象深刻。它流畅地叙述患者的就医历史,识别出表面上的护理空白,生成听起来有临床合理性的观察。
在对照结果标签的真实评估里,情况要复杂得多。
核心问题: GPT-4做的不是统计意义上的模式识别,而是语言补全。当你给它一段理赔历史并要求它识别风险模式,它生成的是听起来像临床分析师会说的话——而不是真正检测到了预测结果的模式。
在我们的评估中,GPT-4的表现与一个阅读同样记录的非临床人工审查员相当——有价值,但谈不上变革性。
同一任务上,用带标签理赔数据训练的梯度提升模型持续优于GPT-4。那个模型学到了真实的统计关系。GPT-4在对其训练分布做语言补全。
GPT-4真正增加价值的地方 是边缘案例——理赔历史不寻常、结构化模型置信度较低的患者。对这些患者,GPT-4对临床背景的推理能力补充了结构化模型做不到的东西。
混合方案——结构化模型处理大多数人群,LLM负责边缘案例分析——比两者单独使用都更有效。
能上生产吗? 作为独立风险模型,不能。作为训练好的预测模型的补充,用于边缘案例分析,可以。
场景三:编码准确性与审计支持
任务: 给定一张理赔单,标记潜在的编码错误、过度编码模式,或诊断与操作编码之间的不一致。
为什么团队想做这个: 编码错误和欺诈、浪费、滥用(FWA)是保险方的重大成本驱动因素。人工审计成本高昂。
测试结果: ⚠️ 好坏参半,细节很重要。
GPT-4擅长发现明显的不一致,比如操作编码与诊断不符、临床上不合理的编码组合、服务地点编码与操作不匹配。对于简单的、规则可表达的不一致,它的表现与设计良好的规则集相当——而后者早就存在,而且运行成本更低。
GPT-4潜在的增量价值在于规则无法很好捕捉的情况,跨越某个医疗机构账单历史的模式级不一致,或单张理赔单上各自站得住脚、但累积起来可疑的编码选择。
可靠性问题很突出。 FWA检测有真实后果。对被错误标记的医疗机构,和错过真实欺诈的保险方,都是如此。GPT-4的幻觉率即使在百分比上很低,在规模化时也会转化为相当数量的错误标记。
能上生产吗? 作为对人工审计队列进行分诊的工具,可以。任何不利行动前必须有明确的人工复核,不能作为决策系统。
场景四:预先授权支持
任务: 给定一个预先授权申请(通常包含诊断编码、操作编码,有时含临床备注),评估该申请是否符合报销标准。
为什么团队想做这个: 预先授权是医疗行业最劳动密集的行政流程之一。
测试结果: ❌ 这是我最谨慎的场景,也是我会最强烈反对快速推进的场景。
在受控评估中,对结果明确的案例,GPT-4的表现是扎实的。
问题出现在分布的中间地带——那些真正模糊的案例,需要临床判断,取决于临床记录里有而理赔数据里没有的文档。
这些模糊案例,恰恰是比例最高的高风险案例。
成本高昂的手术,拒绝后有显著临床后果的治疗方案都在这里。
除了准确率,还有监管考量。联邦和州层面都在积极关注AI在预先授权决策中的应用。多个州已经通过或正在考虑立法,要求对AI辅助拒绝授权决定进行人工复核。
在没有清晰监管合规策略的情况下,在预先授权决策上建立生产系统,是重大风险。
能上生产吗? 对结果明确的审批案例,作为路由效率工具,也许可以。任何接近自动拒绝建议的场景,在有充分人工监督和监管法律咨询之前,不行。
场景五:会员触达与护理空白识别
任务: 根据会员的理赔历史,生成个性化触达内容,识别具体的护理空白,起草鼓励参与的沟通内容。
为什么团队想做这个: 个性化会员触达已被证明能提升参与度和预防保健率。大规模生成真正个性化的触达内容,靠人力代价高昂。
测试结果: ✅ 第二个推荐推进生产的场景。
GPT-4非常擅长这个任务。给定一个会员的理赔历史,它能准确识别具体的护理空白(过期的筛查、未管理好的慢性病、用药依从性问题),并生成可读、适当个性化、临床准确的触达信息。
在用户测试中,临床审查员对GPT-4基于理赔数据生成的触达内容的评级,与有经验的护理协调员手写的内容相当。这是一个有意义的基准。
注意事项:
第一,个性化的质量取决于理赔数据的质量——意味着只有被计费和被捕捉的内容才可见。通过自费门诊、网络外护理、或根本未被正式诊断管理的状况,是隐形的。
第二,任何LLM生成的面向会员的沟通,发出之前都需要临床审核。一句自信的错误陈述,代价很高。
第三,AI生成会员沟通内容的HIPAA和州隐私法规考量,仍在演变中。
能上生产吗? 能,需要在发送前增加临床审核步骤,并做适当的信息披露。
真实评估之后的诚实判断
五个场景下来,浮现出一个一致的规律:
GPT-4在本质上是语言任务的场景表现最好: 把编码翻译成人类语言、生成可读摘要、起草个性化沟通。这些任务,模型的核心能力(复杂的语言生成)直接对应了问题本身。
GPT-4在本质上是统计任务的场景表现不如训练好的模型: 预测哪些患者会恶化、识别哪些账单模式相对于人群基线是异常的。这些任务需要统计模式识别,语言生成能力无法替代。
GPT-4在高风险后果性输出的任务上引入了不可忽视的风险: 预先授权决策、FWA判定、无人工复核即使用的临床风险评分。幻觉率即使很低,在高风险决策场景中规模化后也是不可接受的。
对你的产品意味着什么
从语言任务入手。 编码解释、会员沟通、护理空白摘要——这些场景LLM能力和实施风险的比值最好,也最容易向持怀疑态度的临床stakeholder展示价值。
不要用LLM替换你的预测模型。 如果你有一个表现良好的梯度提升模型在做风险分层任务,GPT-4用同样的理赔数据不会超过它。它可能能补充它——特别是在边缘案例推理或为模型输出生成人类可读的解释上——但不能替换它。
先建评估基础设施,再建产品。 没有严格评估,就没有资格说你在做医疗AI。定义你的基准真值,定义你的指标,在带标签数据上跑你的模型,在上线给临床医生或会员之前,搞清楚你的失效模式。
认真对待监管环境。 医疗行业不适合"快速行动、事后修复"。AI在临床决策支持、预先授权和会员沟通中的监管格局是动态的。把法务和合规审查排进开发时间线,不是最后才想起来的补充。
对stakeholder诚实说出模型不能做什么。 你能建立的最持久的信任,来自于准确呈现系统局限性。"这是我们的模型擅长的,这是需要人工复核的,这是我们验证两者的方式",比"我们的AI分析你的理赔数据并识别机会"是更强的位置。
关于成本和延迟,一个没人说的事
在有意义的保险方或医疗系统规模上,运行GPT-4分析理赔数据不是小批量操作。
对一个中型Medicaid管理型医疗组织的会员人群跑GPT-4,即使是异步的、有批处理的,成本会快速累积。GPT-4的每token成本,乘以那个数据量,数字不小。
对于需要定期处理大规模人群的场景,值得评估一个更小的、微调过的模型能否以显著更低的成本达到相当的表现。
在通用性重要的地方用GPT-4。在任务定义明确、数据量大的地方,用微调过的小模型。
一句话总结
LLM在医疗理赔分析里是真实有用的。
不是最乐观的推介说的那种方式,不是通用模式识别器,不是训练好的预测模型的即插即用替代品,不是高风险工作流里的自主决策者。
而是以其真实架构所暗示的方式:作为复杂的语言系统,能以以前需要大量人力的方式读取、翻译、摘要和生成具有临床意识的文本。
从LLM的理赔数据应用中获得最多价值的团队,都是对自己诚实的,关于他们需要这项技术做什么,以及不需要它做什么。
那种诚实,是其他一切的前提。
下期预告(Module 18):RAG in Healthcare——如何构建一个真正能读懂临床指南的医疗知识库产品,以及决定成败的架构选择。
觉得有用?转发给正在评估医疗AI技术选型的朋友 👇
评论区告诉我:你见过的最被高估的医疗LLM应用场景是什么?
尤哥说 专注于医疗数据与AI产品化的深度内容。作者有医疗数据产品从业背景,覆盖Medicaid、价值医疗、人口健康管理等领域实战经验。