做了十年医疗AI产品,终于想明白了一件事:最牛的系统不是用最新的技术,而是把所有技术用对地方。


开场白

各位好,

做医疗AI快十年了。回头看看2016年我们做的东西,再看看现在的产品,真的像是两个时代。

但今天我想说点不一样的:

我们没有跳过任何一步。

每一代医疗AI技术都建立在前一代的基础上。每一代都有它的高光时刻,都解决了真实的问题,也都教会了我们一些关键的东西。

今天这篇文章,我想带你走一遍这段进化史。不是为了怀旧,而是为了帮你理解,为什么2026年最好的医疗AI产品长成现在这个样子,以及它们接下来会往哪走。

话不多说,开始。


第一幕:规则引擎时代(2015-2018)

"如果血压>140,那么提醒医生"

先说最早的。

在机器学习席卷世界之前,我们用规则来构建医疗系统。很多很多规则。

长什么样?

如果 患者年龄 > 65岁
并且 患者有糖尿病
并且 患者最近一次糖化血红蛋白 > 8.0
并且 距离上次就诊 > 180天
那么 标记为需要外展干预

简单吧?简单到有点粗暴。

但重点来了:它们管用。

这些系统支撑了:

  • 电子病历里的临床决策支持
  • 药品事前授权工作流
  • 护理缺口识别
  • 用药相互作用预警
  • 脓毒症早期预警评分

魔力在哪? 完全透明。医生问"为什么触发这个警报?"你能指着那条具体的规则说:就是这条。没有黑盒。没有神秘感。

局限在哪? 你得想到每一种场景。而临床医学的场景数量基本是无限的。

真实案例:脓毒症预警

最成功的规则系统之一是Epic的脓毒症模型。它通过精心设计的规则,综合生命体征、化验指标和患者病史做判断。

它能抓住所有病例吗?不能。
假阳性多吗?绝对多。
救过命吗?救过。

教训: 在医疗领域,"足够好"并且已部署,远胜过"完美"但还在开发中。这些简单的系统创造了真实价值,也给了我们时间去研究下一步该怎么走。


第二幕:传统机器学习(2017-2020)

"让数据告诉我们规则"

然后机器学习来了。

不用手写规则了,让算法自己从数据里找规律。逻辑回归、随机森林、梯度提升、XGBoost成了万能锤,每个问题都像钉子。

改变了什么:

  • 我们能处理几百个特征,而不是几十个
  • 模型能从历史数据中学习非显而易见的模式
  • 几乎所有基准测试的性能都提升了
  • 我们需要更多更多的数据

我们做的产品:

风险分层模型

预测哪些患者会产生高费用、会再入院、会发生不良事件。这些模型每晚跑一次,给每个患者打分,生成干预列表。

说实话: 我的第一个生产模型就是个XGBoost,预测30天再入院风险。我们用2年的理赔数据训练,150多个特征,AUC达到0.73。按ML标准不算惊艳,但对护理团队来说足够有用了。

事前授权自动化

ML模型审查临床记录,预测批准可能性。不是做决定——只是分流案例,让人工专注于难啃的骨头。

临床NLP

从医生笔记中提取诊断、药物、症状。终于,我们能大规模分析非结构化数据了。

突破点:特征工程

这个时代的秘密武器不是算法——是特征。

我们创造了这样的变量:

  • "过去90天急诊就诊次数"
  • "距离上次初级保健就诊天数"
  • "总用药数量"
  • "上一年度总费用"
  • "过去12个月糖化血红蛋白趋势"

每一个好的ML模型,80%是特征工程,20%是算法调优。

局限性: 模型还是很脆弱。一个45岁的糖尿病患者和一个65岁的糖尿病患者,如果化验指标一样,会得到同样的风险评分,尽管上下文很重要。模型看到了模式,但不理解意义。


第三幕:深度学习(2019-2022)

"我们不需要特征工程了"

深度学习通过直接从原始数据学习表征,改变了游戏规则。

这带来了什么:

医学影像AI

CNN读胸片、检测糖尿病视网膜病变、发现癌性病灶。这不只是匹配模式,它们达到了接近放射科医生的表现。

FDA开始批准算法作为医疗器械。这是真的了。

临床序列模型

LSTM和Transformer分析患者时间线。不只是"当前状态是什么?"而是"轨迹是什么?"

我们能在传统预警评分发现之前几个小时,预测病情恶化。

多模态模型

把影像+化验+病历+生命体征整合到单一模型中。终于,我们能模仿医生的真实思维方式,综合多种数据类型。

真实案例:我们的ICU模型

我们做了一个LSTM,预测哪些普通病房患者在未来6小时内需要转ICU。

输入:

  • 每15分钟的生命体征
  • 48小时的化验趋势
  • 护士笔记(嵌入向量)
  • 用药变化

结果:

  • 比临床团队注意到早4小时预警
  • 减少了30%的非计划ICU转科
  • 护士真的信任它(这才是真正的胜利)

局限性: 这些模型需要海量数据、强大算力、深厚的ML专业知识。小型医疗系统玩不起。而且当它们失败时,是静默失败,没有可解释性。


第四幕:大语言模型登场(2022-2024)

"等等,这玩意儿真能理解临床语境?"

然后ChatGPT在2022年11月横空出世,一切都变了。

不是立刻。不是一夜之间。但在六个月内,每一个医疗AI路线图都被重写了。

LLM为什么不一样:

1. 它们真的理解语言

以前的NLP提取实体:"发现:2型糖尿病、高血压、二甲双胍"

LLM理解语境:"患者因费用顾虑而难以坚持用药,尽管使用了适当药物,但糖尿病控制不佳。"

这不是提取。这是理解。

2. 它们能生成,不只是分类

老办法:"这份病历支持医疗必要性吗?是/否"

新办法:"生成一份临床摘要,解释为什么这个治疗具有医疗必要性,引用患者病历中的具体证据。"

3. 它们处理歧义

临床语言很混乱:

  • "患者否认胸痛"(无症状)
  • "无胸痛证据"(症状未被记录)
  • "患者表示今天没有胸痛"(症状目前不存在)

LLM能理解这些细微差别。传统NLP很挣扎。

4. 它们能遵循复杂指令

我们从为每个任务训练单独的模型,变成给一个模型不同的指令:

  • "提取所有药物和剂量"
  • "总结健康的社会决定因素"
  • "识别糖尿病护理缺口"
  • "为这个拒赔生成一封申诉信"

同一个模型。不同的提示词。

我们现在在做的产品

临床文档助手

医生说话,LLM生成病历草稿。不只是转录,是真正遵循模板的临床文档,包括评估和计划。

现实检验: 这些不是替代医生。它们减少"睡衣时间"(晚上写病历)。巨大的生活质量改善。

事前授权自动化2.0

不是分类案例,LLM生成完整的授权申请,包括:

  • 临床摘要
  • 医疗必要性论证
  • 引用的相关指南
  • 提取的支持证据

从每个授权45分钟变成5分钟审核时间。

患者聊天机器人

以前的聊天机器人:"抱歉,我不理解。请重新表述。"

LLM聊天机器人:

  • 理解自然语言问题
  • 提供个性化回答
  • 知道何时升级给人工
  • 真的帮助患者导航护理

临床决策支持2.0

不只是警报。是上下文指导:

医生:"对于这个新发肾病的糖尿病患者,我应该考虑什么?"

LLM:提供鉴别诊断,标记需要调整的药物,建议适当的专科医生,注明相关指南,全部针对这个特定患者的情况。


第五幕:智能体AI(2024-至今)

"如果AI能采取行动,而不只是做预测,会怎样?"

我们正在进入一个新阶段:能做事的AI智能体。

不只是:

  • "这个患者是高风险"(预测)

而是:

  • "我识别出这个患者是高风险,检查了他们的预约历史,确认他们该做糖化血红蛋白检测了,找到了他们初级保健医生下周的空档,起草了外展消息。我应该发送吗?"(行动)

医疗中的智能体AI长什么样:

自主事前授权处理

智能体会:

  1. 接收事前授权请求
  2. 从电子病历检索相关临床记录
  3. 检查支付方指南
  4. 生成支持文档
  5. 通过支付方门户提交
  6. 监控状态并跟进
  7. 只在拒赔时升级给人工

主动护理缺口闭环

智能体会:

  1. 识别有护理缺口的患者
  2. 审查病历中的禁忌症
  3. 检查保险覆盖
  4. 查找可用预约
  5. 生成个性化外展
  6. 如果患者同意就安排预约
  7. 添加到护理团队任务列表

智能分诊

智能体会:

  1. 接收患者消息
  2. 分析紧急程度和临床需求
  3. 检查协议和指南
  4. 路由到适当的团队成员
  5. 起草带有相关教育内容的回复
  6. 如果需要安排随访

真实案例:我们的护理导航智能体

上季度我们部署了一个帮助患者导航专科护理的智能体。

流程:

  1. 患者的初级保健医生转诊到心脏科
  2. 智能体读取转诊原因和患者病历
  3. 识别需要的特定心脏科医生类型
  4. 检查患者保险网络
  5. 找到2周内的可用预约
  6. 给患者发送3个选项和后勤信息(停车、准备说明)
  7. 患者回复时预约
  8. 预约前2天发送准备清单
  9. 如果患者爽约就跟进

结果:

  • 专科就诊完成率:62% → 84%
  • 从转诊到预约的时间:38天 → 12天
  • 每个转诊的人工时间:25分钟 → 3分钟

这不只是自动化。这是编排。


规律:每一代都建立在前一代基础上

看着这段进化,我学到了:

规则引擎 教会我们:临床工作流需要透明度和可解释性。

传统机器学习 教会我们:历史数据揭示了人类看不到的模式。

深度学习 教会我们:我们可以直接从复杂混乱的医疗数据中学习。

大语言模型 教会我们:理解语境和语言解锁了全新的能力。

智能体AI 正在教会我们:AI可以是协作者,而不只是工具。


这对产品策略意味着什么

如果你在2026年做医疗AI产品,这是我的打法:

1. 用对的工具做对的事

不是什么都需要LLM。

  • 简单的资格检查?→ 规则引擎
  • 风险评分?→ 传统ML(XGBoost仍是王者)
  • 医学影像?→ 深度学习(CNN)
  • 临床记录摘要?→ LLM
  • 多步骤工作流自动化?→ 智能体AI

错误做法: 因为LLM很火就什么都用LLM。它们贵,更难验证,对简单任务来说是大炮打蚊子。

2. 构建混合系统

我们最好的产品结合了多种方法:

例子:事前授权产品

  • 规则筛选掉明显批准的案例(20%的量)
  • ML模型预测批准可能性(分流)
  • LLM生成临床摘要(高价值案例)
  • 智能体监控状态并跟进(工作流)

每一层做它最擅长的事。

3. 从简单开始,逐步增加复杂度

我见过很多团队试图构建"终极AI驱动临床系统"然后失败。

更好的方法:

  1. 从规则开始(让东西先跑起来)
  2. 在规则脆弱的地方加ML(提升性能)
  3. 为语言任务分层加入LLM(增加能力)
  4. 核心部分工作后构建智能体工作流(规模化影响)

4. 永远不要跳过验证

每一代AI需要不同的验证方法:

规则: 用真实案例测试每条规则
ML模型: 在留出数据上验证,监控漂移
深度学习: 在多样化人群上测试,检查偏见
LLM: 有临床审查员的评估框架
智能体: 端到端工作流测试,人在回路监控

我们不得不多次艰难地学习这个。


不舒服的真相

这是我告诉每个新医疗AI团队的话:

你的花哨AI只和你的实施一样好。

我见过优秀的LLM失败,因为:

  • 它们没有整合到临床工作流中
  • 医生不信任它们
  • 用户体验很糟糕
  • 没人培训员工
  • 输出不可操作

我也见过简单的规则系统蓬勃发展,因为:

  • 它们解决了真正的痛点
  • 它们自然融入现有工作流
  • 它们透明可信
  • 团队得到了适当培训
  • 价值立竿见影且明显

技术代际重要性不如产品执行。


我们在走向哪里

展望未来,我看到三个主要趋势:

1. 多模态临床AI

原生处理的模型:

  • 医学影像
  • 临床记录
  • 化验值
  • 基因组数据
  • 患者报告的结果
  • 健康社会决定因素

都在一个系统里。不再拼接模型。

2. 个性化AI助手

每个临床医生都会有一个AI:

  • 了解他们的执业模式
  • 理解他们的患者群
  • 适应他们的沟通风格
  • 随时间学习他们的偏好

就像一个永远不会忘记任何事的聪明住院医。

3. 联邦医疗AI

在多个医疗系统间训练模型而不共享患者数据。我们获得大规模学习的好处同时保护隐私。

这为罕见病和小群体解锁了AI。


元教训

不到十年,我们从规则引擎走到了智能体AI。

但重点是:我们仍然在使用所有这些方法。

2026年最好的医疗AI产品不是纯LLM应用。它们是多种方法的深思熟虑组合,每种都用在它闪光的地方。

  • 规则用于透明度
  • ML用于预测
  • 深度学习用于复杂模式
  • LLM用于语言理解
  • 智能体用于工作流自动化

未来不是替换旧方法。而是智能地编排它们。


我在关注什么

几件我正在盯着的事:

多模态医学基础模型(Med-PaLM、BioGPT后继者),真正跨数据类型理解临床语境

监管框架 赶上智能体AI,你怎么监管一个采取行动的AI?

报销模式 转向基于价值的护理,让AI驱动的干预在经济上可行

临床验证标准 超越传统RCT,处理持续学习系统


底线

医疗AI走了很长的路。但我们还没完成。甚至还差得远。

下一代将是这样的系统:

  • 理解患者是复杂的人,而不是数据点
  • 与临床医生协作,而不是替代他们
  • 从结果中持续学习
  • 适应个体情境
  • 真正改善健康,而不只是文档

这是承诺。现在我们只需要去构建它。


你在用哪一代医疗AI构建? 回复告诉我什么对你的产品有用(什么没用)。

下周见,

尤哥


这是我52周医疗AI内幕系列的一部分。每周我都会分享医疗AI中真正有效的东西(以及无效的东西)。

wk13