从规则引擎到大模型：医疗AI十年进化史（我踩过的坑都在这了）

做了十年医疗AI产品，终于想明白了一件事：最牛的系统不是用最新的技术，而是把所有技术用对地方。

开场白

各位好，

做医疗AI快十年了。回头看看2016年我们做的东西，再看看现在的产品，真的像是两个时代。

但今天我想说点不一样的：

我们没有跳过任何一步。

每一代医疗AI技术都建立在前一代的基础上。每一代都有它的高光时刻，都解决了真实的问题，也都教会了我们一些关键的东西。

今天这篇文章，我想带你走一遍这段进化史。不是为了怀旧，而是为了帮你理解，为什么2026年最好的医疗AI产品长成现在这个样子，以及它们接下来会往哪走。

话不多说，开始。

第一幕：规则引擎时代（2015-2018）

"如果血压>140，那么提醒医生"

先说最早的。

在机器学习席卷世界之前，我们用规则来构建医疗系统。很多很多规则。

长什么样？

如果 患者年龄 > 65岁
并且 患者有糖尿病
并且 患者最近一次糖化血红蛋白 > 8.0
并且 距离上次就诊 > 180天
那么 标记为需要外展干预

简单吧？简单到有点粗暴。

但重点来了：它们管用。

这些系统支撑了：

电子病历里的临床决策支持
药品事前授权工作流
护理缺口识别
用药相互作用预警
脓毒症早期预警评分

魔力在哪？ 完全透明。医生问"为什么触发这个警报？"你能指着那条具体的规则说：就是这条。没有黑盒。没有神秘感。

局限在哪？ 你得想到每一种场景。而临床医学的场景数量基本是无限的。

真实案例：脓毒症预警

最成功的规则系统之一是Epic的脓毒症模型。它通过精心设计的规则，综合生命体征、化验指标和患者病史做判断。

它能抓住所有病例吗？不能。
假阳性多吗？绝对多。
救过命吗？救过。

教训： 在医疗领域，"足够好"并且已部署，远胜过"完美"但还在开发中。这些简单的系统创造了真实价值，也给了我们时间去研究下一步该怎么走。

第二幕：传统机器学习（2017-2020）

"让数据告诉我们规则"

然后机器学习来了。

不用手写规则了，让算法自己从数据里找规律。逻辑回归、随机森林、梯度提升、XGBoost成了万能锤，每个问题都像钉子。

改变了什么：

我们能处理几百个特征，而不是几十个
模型能从历史数据中学习非显而易见的模式
几乎所有基准测试的性能都提升了
我们需要更多更多的数据

我们做的产品：

风险分层模型

预测哪些患者会产生高费用、会再入院、会发生不良事件。这些模型每晚跑一次，给每个患者打分，生成干预列表。

说实话： 我的第一个生产模型就是个XGBoost，预测30天再入院风险。我们用2年的理赔数据训练，150多个特征，AUC达到0.73。按ML标准不算惊艳，但对护理团队来说足够有用了。

事前授权自动化

ML模型审查临床记录，预测批准可能性。不是做决定——只是分流案例，让人工专注于难啃的骨头。

临床NLP

从医生笔记中提取诊断、药物、症状。终于，我们能大规模分析非结构化数据了。

突破点：特征工程

这个时代的秘密武器不是算法——是特征。

我们创造了这样的变量：

"过去90天急诊就诊次数"
"距离上次初级保健就诊天数"
"总用药数量"
"上一年度总费用"
"过去12个月糖化血红蛋白趋势"

每一个好的ML模型，80%是特征工程，20%是算法调优。

局限性： 模型还是很脆弱。一个45岁的糖尿病患者和一个65岁的糖尿病患者，如果化验指标一样，会得到同样的风险评分，尽管上下文很重要。模型看到了模式，但不理解意义。

第三幕：深度学习（2019-2022）

"我们不需要特征工程了"

深度学习通过直接从原始数据学习表征，改变了游戏规则。

这带来了什么：

医学影像AI

CNN读胸片、检测糖尿病视网膜病变、发现癌性病灶。这不只是匹配模式，它们达到了接近放射科医生的表现。

FDA开始批准算法作为医疗器械。这是真的了。

临床序列模型

LSTM和Transformer分析患者时间线。不只是"当前状态是什么？"而是"轨迹是什么？"

我们能在传统预警评分发现之前几个小时，预测病情恶化。

多模态模型

把影像+化验+病历+生命体征整合到单一模型中。终于，我们能模仿医生的真实思维方式，综合多种数据类型。

真实案例：我们的ICU模型

我们做了一个LSTM，预测哪些普通病房患者在未来6小时内需要转ICU。

输入：

每15分钟的生命体征
48小时的化验趋势
护士笔记（嵌入向量）
用药变化

结果：

比临床团队注意到早4小时预警
减少了30%的非计划ICU转科
护士真的信任它（这才是真正的胜利）

局限性： 这些模型需要海量数据、强大算力、深厚的ML专业知识。小型医疗系统玩不起。而且当它们失败时，是静默失败，没有可解释性。

第四幕：大语言模型登场（2022-2024）

"等等，这玩意儿真能理解临床语境？"

然后ChatGPT在2022年11月横空出世，一切都变了。

不是立刻。不是一夜之间。但在六个月内，每一个医疗AI路线图都被重写了。

LLM为什么不一样：

1. 它们真的理解语言

以前的NLP提取实体："发现：2型糖尿病、高血压、二甲双胍"

LLM理解语境："患者因费用顾虑而难以坚持用药，尽管使用了适当药物，但糖尿病控制不佳。"

这不是提取。这是理解。

2. 它们能生成，不只是分类

老办法："这份病历支持医疗必要性吗？是/否"

新办法："生成一份临床摘要，解释为什么这个治疗具有医疗必要性，引用患者病历中的具体证据。"

3. 它们处理歧义

临床语言很混乱：

"患者否认胸痛"（无症状）
"无胸痛证据"（症状未被记录）
"患者表示今天没有胸痛"（症状目前不存在）

LLM能理解这些细微差别。传统NLP很挣扎。

4. 它们能遵循复杂指令

我们从为每个任务训练单独的模型，变成给一个模型不同的指令：

"提取所有药物和剂量"
"总结健康的社会决定因素"
"识别糖尿病护理缺口"
"为这个拒赔生成一封申诉信"

同一个模型。不同的提示词。

我们现在在做的产品

临床文档助手

医生说话，LLM生成病历草稿。不只是转录，是真正遵循模板的临床文档，包括评估和计划。

现实检验： 这些不是替代医生。它们减少"睡衣时间"（晚上写病历）。巨大的生活质量改善。

事前授权自动化2.0

不是分类案例，LLM生成完整的授权申请，包括：

临床摘要
医疗必要性论证
引用的相关指南
提取的支持证据

从每个授权45分钟变成5分钟审核时间。

患者聊天机器人

以前的聊天机器人："抱歉，我不理解。请重新表述。"

LLM聊天机器人：

理解自然语言问题
提供个性化回答
知道何时升级给人工
真的帮助患者导航护理

临床决策支持2.0

不只是警报。是上下文指导：

医生："对于这个新发肾病的糖尿病患者，我应该考虑什么？"

LLM：提供鉴别诊断，标记需要调整的药物，建议适当的专科医生，注明相关指南，全部针对这个特定患者的情况。

第五幕：智能体AI（2024-至今）

"如果AI能采取行动，而不只是做预测，会怎样？"

我们正在进入一个新阶段：能做事的AI智能体。

不只是：

"这个患者是高风险"（预测）

而是：

"我识别出这个患者是高风险，检查了他们的预约历史，确认他们该做糖化血红蛋白检测了，找到了他们初级保健医生下周的空档，起草了外展消息。我应该发送吗？"（行动）

医疗中的智能体AI长什么样：

自主事前授权处理

智能体会：

接收事前授权请求
从电子病历检索相关临床记录
检查支付方指南
生成支持文档
通过支付方门户提交
监控状态并跟进
只在拒赔时升级给人工

主动护理缺口闭环

智能体会：

识别有护理缺口的患者
审查病历中的禁忌症
检查保险覆盖
查找可用预约
生成个性化外展
如果患者同意就安排预约
添加到护理团队任务列表

智能分诊

智能体会：

接收患者消息
分析紧急程度和临床需求
检查协议和指南
路由到适当的团队成员
起草带有相关教育内容的回复
如果需要安排随访

真实案例：我们的护理导航智能体

上季度我们部署了一个帮助患者导航专科护理的智能体。

流程：

患者的初级保健医生转诊到心脏科
智能体读取转诊原因和患者病历
识别需要的特定心脏科医生类型
检查患者保险网络
找到2周内的可用预约
给患者发送3个选项和后勤信息（停车、准备说明）
患者回复时预约
预约前2天发送准备清单
如果患者爽约就跟进

结果：

专科就诊完成率：62% → 84%
从转诊到预约的时间：38天 → 12天
每个转诊的人工时间：25分钟 → 3分钟

这不只是自动化。这是编排。

规律：每一代都建立在前一代基础上

看着这段进化，我学到了：

规则引擎 教会我们：临床工作流需要透明度和可解释性。

传统机器学习 教会我们：历史数据揭示了人类看不到的模式。

深度学习 教会我们：我们可以直接从复杂混乱的医疗数据中学习。

大语言模型 教会我们：理解语境和语言解锁了全新的能力。

智能体AI 正在教会我们：AI可以是协作者，而不只是工具。

这对产品策略意味着什么

如果你在2026年做医疗AI产品，这是我的打法：

1. 用对的工具做对的事

不是什么都需要LLM。

简单的资格检查？→ 规则引擎
风险评分？→ 传统ML（XGBoost仍是王者）
医学影像？→ 深度学习（CNN）
临床记录摘要？→ LLM
多步骤工作流自动化？→ 智能体AI

错误做法： 因为LLM很火就什么都用LLM。它们贵，更难验证，对简单任务来说是大炮打蚊子。

2. 构建混合系统

我们最好的产品结合了多种方法：

例子：事前授权产品

规则筛选掉明显批准的案例（20%的量）
ML模型预测批准可能性（分流）
LLM生成临床摘要（高价值案例）
智能体监控状态并跟进（工作流）

每一层做它最擅长的事。

3. 从简单开始，逐步增加复杂度

我见过很多团队试图构建"终极AI驱动临床系统"然后失败。

更好的方法：

从规则开始（让东西先跑起来）
在规则脆弱的地方加ML（提升性能）
为语言任务分层加入LLM（增加能力）
核心部分工作后构建智能体工作流（规模化影响）

4. 永远不要跳过验证

每一代AI需要不同的验证方法：

规则： 用真实案例测试每条规则
ML模型： 在留出数据上验证，监控漂移
深度学习： 在多样化人群上测试，检查偏见
LLM： 有临床审查员的评估框架
智能体： 端到端工作流测试，人在回路监控

我们不得不多次艰难地学习这个。

不舒服的真相

这是我告诉每个新医疗AI团队的话：

你的花哨AI只和你的实施一样好。

我见过优秀的LLM失败，因为：

它们没有整合到临床工作流中
医生不信任它们
用户体验很糟糕
没人培训员工
输出不可操作

我也见过简单的规则系统蓬勃发展，因为：

它们解决了真正的痛点
它们自然融入现有工作流
它们透明可信
团队得到了适当培训
价值立竿见影且明显

技术代际重要性不如产品执行。

我们在走向哪里

展望未来，我看到三个主要趋势：

1. 多模态临床AI

原生处理的模型：

医学影像
临床记录
化验值
基因组数据
患者报告的结果
健康社会决定因素

都在一个系统里。不再拼接模型。

2. 个性化AI助手

每个临床医生都会有一个AI：

了解他们的执业模式
理解他们的患者群
适应他们的沟通风格
随时间学习他们的偏好

就像一个永远不会忘记任何事的聪明住院医。

3. 联邦医疗AI

在多个医疗系统间训练模型而不共享患者数据。我们获得大规模学习的好处同时保护隐私。

这为罕见病和小群体解锁了AI。

元教训

不到十年，我们从规则引擎走到了智能体AI。

但重点是：我们仍然在使用所有这些方法。

2026年最好的医疗AI产品不是纯LLM应用。它们是多种方法的深思熟虑组合，每种都用在它闪光的地方。

规则用于透明度
ML用于预测
深度学习用于复杂模式
LLM用于语言理解
智能体用于工作流自动化

未来不是替换旧方法。而是智能地编排它们。

我在关注什么

几件我正在盯着的事：

多模态医学基础模型（Med-PaLM、BioGPT后继者），真正跨数据类型理解临床语境

监管框架 赶上智能体AI，你怎么监管一个采取行动的AI？

报销模式 转向基于价值的护理，让AI驱动的干预在经济上可行

临床验证标准 超越传统RCT，处理持续学习系统

底线

医疗AI走了很长的路。但我们还没完成。甚至还差得远。

下一代将是这样的系统：

理解患者是复杂的人，而不是数据点
与临床医生协作，而不是替代他们
从结果中持续学习
适应个体情境
真正改善健康，而不只是文档

这是承诺。现在我们只需要去构建它。

你在用哪一代医疗AI构建？ 回复告诉我什么对你的产品有用（什么没用）。

下周见，

尤哥

这是我52周医疗AI内幕系列的一部分。每周我都会分享医疗AI中真正有效的东西（以及无效的东西）。

wk13

#医疗，AI，产品，大模型