做了十年医疗AI产品,终于想明白了一件事:最牛的系统不是用最新的技术,而是把所有技术用对地方。
开场白
各位好,
做医疗AI快十年了。回头看看2016年我们做的东西,再看看现在的产品,真的像是两个时代。
但今天我想说点不一样的:
我们没有跳过任何一步。
每一代医疗AI技术都建立在前一代的基础上。每一代都有它的高光时刻,都解决了真实的问题,也都教会了我们一些关键的东西。
今天这篇文章,我想带你走一遍这段进化史。不是为了怀旧,而是为了帮你理解,为什么2026年最好的医疗AI产品长成现在这个样子,以及它们接下来会往哪走。
话不多说,开始。
第一幕:规则引擎时代(2015-2018)
"如果血压>140,那么提醒医生"
先说最早的。
在机器学习席卷世界之前,我们用规则来构建医疗系统。很多很多规则。
长什么样?
如果 患者年龄 > 65岁
并且 患者有糖尿病
并且 患者最近一次糖化血红蛋白 > 8.0
并且 距离上次就诊 > 180天
那么 标记为需要外展干预
简单吧?简单到有点粗暴。
但重点来了:它们管用。
这些系统支撑了:
- 电子病历里的临床决策支持
- 药品事前授权工作流
- 护理缺口识别
- 用药相互作用预警
- 脓毒症早期预警评分
魔力在哪? 完全透明。医生问"为什么触发这个警报?"你能指着那条具体的规则说:就是这条。没有黑盒。没有神秘感。
局限在哪? 你得想到每一种场景。而临床医学的场景数量基本是无限的。
真实案例:脓毒症预警
最成功的规则系统之一是Epic的脓毒症模型。它通过精心设计的规则,综合生命体征、化验指标和患者病史做判断。
它能抓住所有病例吗?不能。
假阳性多吗?绝对多。
救过命吗?救过。
教训: 在医疗领域,"足够好"并且已部署,远胜过"完美"但还在开发中。这些简单的系统创造了真实价值,也给了我们时间去研究下一步该怎么走。
第二幕:传统机器学习(2017-2020)
"让数据告诉我们规则"
然后机器学习来了。
不用手写规则了,让算法自己从数据里找规律。逻辑回归、随机森林、梯度提升、XGBoost成了万能锤,每个问题都像钉子。
改变了什么:
- 我们能处理几百个特征,而不是几十个
- 模型能从历史数据中学习非显而易见的模式
- 几乎所有基准测试的性能都提升了
- 我们需要更多更多的数据
我们做的产品:
风险分层模型
预测哪些患者会产生高费用、会再入院、会发生不良事件。这些模型每晚跑一次,给每个患者打分,生成干预列表。
说实话: 我的第一个生产模型就是个XGBoost,预测30天再入院风险。我们用2年的理赔数据训练,150多个特征,AUC达到0.73。按ML标准不算惊艳,但对护理团队来说足够有用了。
事前授权自动化
ML模型审查临床记录,预测批准可能性。不是做决定——只是分流案例,让人工专注于难啃的骨头。
临床NLP
从医生笔记中提取诊断、药物、症状。终于,我们能大规模分析非结构化数据了。
突破点:特征工程
这个时代的秘密武器不是算法——是特征。
我们创造了这样的变量:
- "过去90天急诊就诊次数"
- "距离上次初级保健就诊天数"
- "总用药数量"
- "上一年度总费用"
- "过去12个月糖化血红蛋白趋势"
每一个好的ML模型,80%是特征工程,20%是算法调优。
局限性: 模型还是很脆弱。一个45岁的糖尿病患者和一个65岁的糖尿病患者,如果化验指标一样,会得到同样的风险评分,尽管上下文很重要。模型看到了模式,但不理解意义。
第三幕:深度学习(2019-2022)
"我们不需要特征工程了"
深度学习通过直接从原始数据学习表征,改变了游戏规则。
这带来了什么:
医学影像AI
CNN读胸片、检测糖尿病视网膜病变、发现癌性病灶。这不只是匹配模式,它们达到了接近放射科医生的表现。
FDA开始批准算法作为医疗器械。这是真的了。
临床序列模型
LSTM和Transformer分析患者时间线。不只是"当前状态是什么?"而是"轨迹是什么?"
我们能在传统预警评分发现之前几个小时,预测病情恶化。
多模态模型
把影像+化验+病历+生命体征整合到单一模型中。终于,我们能模仿医生的真实思维方式,综合多种数据类型。
真实案例:我们的ICU模型
我们做了一个LSTM,预测哪些普通病房患者在未来6小时内需要转ICU。
输入:
- 每15分钟的生命体征
- 48小时的化验趋势
- 护士笔记(嵌入向量)
- 用药变化
结果:
- 比临床团队注意到早4小时预警
- 减少了30%的非计划ICU转科
- 护士真的信任它(这才是真正的胜利)
局限性: 这些模型需要海量数据、强大算力、深厚的ML专业知识。小型医疗系统玩不起。而且当它们失败时,是静默失败,没有可解释性。
第四幕:大语言模型登场(2022-2024)
"等等,这玩意儿真能理解临床语境?"
然后ChatGPT在2022年11月横空出世,一切都变了。
不是立刻。不是一夜之间。但在六个月内,每一个医疗AI路线图都被重写了。
LLM为什么不一样:
1. 它们真的理解语言
以前的NLP提取实体:"发现:2型糖尿病、高血压、二甲双胍"
LLM理解语境:"患者因费用顾虑而难以坚持用药,尽管使用了适当药物,但糖尿病控制不佳。"
这不是提取。这是理解。
2. 它们能生成,不只是分类
老办法:"这份病历支持医疗必要性吗?是/否"
新办法:"生成一份临床摘要,解释为什么这个治疗具有医疗必要性,引用患者病历中的具体证据。"
3. 它们处理歧义
临床语言很混乱:
- "患者否认胸痛"(无症状)
- "无胸痛证据"(症状未被记录)
- "患者表示今天没有胸痛"(症状目前不存在)
LLM能理解这些细微差别。传统NLP很挣扎。
4. 它们能遵循复杂指令
我们从为每个任务训练单独的模型,变成给一个模型不同的指令:
- "提取所有药物和剂量"
- "总结健康的社会决定因素"
- "识别糖尿病护理缺口"
- "为这个拒赔生成一封申诉信"
同一个模型。不同的提示词。
我们现在在做的产品
临床文档助手
医生说话,LLM生成病历草稿。不只是转录,是真正遵循模板的临床文档,包括评估和计划。
现实检验: 这些不是替代医生。它们减少"睡衣时间"(晚上写病历)。巨大的生活质量改善。
事前授权自动化2.0
不是分类案例,LLM生成完整的授权申请,包括:
- 临床摘要
- 医疗必要性论证
- 引用的相关指南
- 提取的支持证据
从每个授权45分钟变成5分钟审核时间。
患者聊天机器人
以前的聊天机器人:"抱歉,我不理解。请重新表述。"
LLM聊天机器人:
- 理解自然语言问题
- 提供个性化回答
- 知道何时升级给人工
- 真的帮助患者导航护理
临床决策支持2.0
不只是警报。是上下文指导:
医生:"对于这个新发肾病的糖尿病患者,我应该考虑什么?"
LLM:提供鉴别诊断,标记需要调整的药物,建议适当的专科医生,注明相关指南,全部针对这个特定患者的情况。
第五幕:智能体AI(2024-至今)
"如果AI能采取行动,而不只是做预测,会怎样?"
我们正在进入一个新阶段:能做事的AI智能体。
不只是:
- "这个患者是高风险"(预测)
而是:
- "我识别出这个患者是高风险,检查了他们的预约历史,确认他们该做糖化血红蛋白检测了,找到了他们初级保健医生下周的空档,起草了外展消息。我应该发送吗?"(行动)
医疗中的智能体AI长什么样:
自主事前授权处理
智能体会:
- 接收事前授权请求
- 从电子病历检索相关临床记录
- 检查支付方指南
- 生成支持文档
- 通过支付方门户提交
- 监控状态并跟进
- 只在拒赔时升级给人工
主动护理缺口闭环
智能体会:
- 识别有护理缺口的患者
- 审查病历中的禁忌症
- 检查保险覆盖
- 查找可用预约
- 生成个性化外展
- 如果患者同意就安排预约
- 添加到护理团队任务列表
智能分诊
智能体会:
- 接收患者消息
- 分析紧急程度和临床需求
- 检查协议和指南
- 路由到适当的团队成员
- 起草带有相关教育内容的回复
- 如果需要安排随访
真实案例:我们的护理导航智能体
上季度我们部署了一个帮助患者导航专科护理的智能体。
流程:
- 患者的初级保健医生转诊到心脏科
- 智能体读取转诊原因和患者病历
- 识别需要的特定心脏科医生类型
- 检查患者保险网络
- 找到2周内的可用预约
- 给患者发送3个选项和后勤信息(停车、准备说明)
- 患者回复时预约
- 预约前2天发送准备清单
- 如果患者爽约就跟进
结果:
- 专科就诊完成率:62% → 84%
- 从转诊到预约的时间:38天 → 12天
- 每个转诊的人工时间:25分钟 → 3分钟
这不只是自动化。这是编排。
规律:每一代都建立在前一代基础上
看着这段进化,我学到了:
规则引擎 教会我们:临床工作流需要透明度和可解释性。
传统机器学习 教会我们:历史数据揭示了人类看不到的模式。
深度学习 教会我们:我们可以直接从复杂混乱的医疗数据中学习。
大语言模型 教会我们:理解语境和语言解锁了全新的能力。
智能体AI 正在教会我们:AI可以是协作者,而不只是工具。
这对产品策略意味着什么
如果你在2026年做医疗AI产品,这是我的打法:
1. 用对的工具做对的事
不是什么都需要LLM。
- 简单的资格检查?→ 规则引擎
- 风险评分?→ 传统ML(XGBoost仍是王者)
- 医学影像?→ 深度学习(CNN)
- 临床记录摘要?→ LLM
- 多步骤工作流自动化?→ 智能体AI
错误做法: 因为LLM很火就什么都用LLM。它们贵,更难验证,对简单任务来说是大炮打蚊子。
2. 构建混合系统
我们最好的产品结合了多种方法:
例子:事前授权产品
- 规则筛选掉明显批准的案例(20%的量)
- ML模型预测批准可能性(分流)
- LLM生成临床摘要(高价值案例)
- 智能体监控状态并跟进(工作流)
每一层做它最擅长的事。
3. 从简单开始,逐步增加复杂度
我见过很多团队试图构建"终极AI驱动临床系统"然后失败。
更好的方法:
- 从规则开始(让东西先跑起来)
- 在规则脆弱的地方加ML(提升性能)
- 为语言任务分层加入LLM(增加能力)
- 核心部分工作后构建智能体工作流(规模化影响)
4. 永远不要跳过验证
每一代AI需要不同的验证方法:
规则: 用真实案例测试每条规则
ML模型: 在留出数据上验证,监控漂移
深度学习: 在多样化人群上测试,检查偏见
LLM: 有临床审查员的评估框架
智能体: 端到端工作流测试,人在回路监控
我们不得不多次艰难地学习这个。
不舒服的真相
这是我告诉每个新医疗AI团队的话:
你的花哨AI只和你的实施一样好。
我见过优秀的LLM失败,因为:
- 它们没有整合到临床工作流中
- 医生不信任它们
- 用户体验很糟糕
- 没人培训员工
- 输出不可操作
我也见过简单的规则系统蓬勃发展,因为:
- 它们解决了真正的痛点
- 它们自然融入现有工作流
- 它们透明可信
- 团队得到了适当培训
- 价值立竿见影且明显
技术代际重要性不如产品执行。
我们在走向哪里
展望未来,我看到三个主要趋势:
1. 多模态临床AI
原生处理的模型:
- 医学影像
- 临床记录
- 化验值
- 基因组数据
- 患者报告的结果
- 健康社会决定因素
都在一个系统里。不再拼接模型。
2. 个性化AI助手
每个临床医生都会有一个AI:
- 了解他们的执业模式
- 理解他们的患者群
- 适应他们的沟通风格
- 随时间学习他们的偏好
就像一个永远不会忘记任何事的聪明住院医。
3. 联邦医疗AI
在多个医疗系统间训练模型而不共享患者数据。我们获得大规模学习的好处同时保护隐私。
这为罕见病和小群体解锁了AI。
元教训
不到十年,我们从规则引擎走到了智能体AI。
但重点是:我们仍然在使用所有这些方法。
2026年最好的医疗AI产品不是纯LLM应用。它们是多种方法的深思熟虑组合,每种都用在它闪光的地方。
- 规则用于透明度
- ML用于预测
- 深度学习用于复杂模式
- LLM用于语言理解
- 智能体用于工作流自动化
未来不是替换旧方法。而是智能地编排它们。
我在关注什么
几件我正在盯着的事:
多模态医学基础模型(Med-PaLM、BioGPT后继者),真正跨数据类型理解临床语境
监管框架 赶上智能体AI,你怎么监管一个采取行动的AI?
报销模式 转向基于价值的护理,让AI驱动的干预在经济上可行
临床验证标准 超越传统RCT,处理持续学习系统
底线
医疗AI走了很长的路。但我们还没完成。甚至还差得远。
下一代将是这样的系统:
- 理解患者是复杂的人,而不是数据点
- 与临床医生协作,而不是替代他们
- 从结果中持续学习
- 适应个体情境
- 真正改善健康,而不只是文档
这是承诺。现在我们只需要去构建它。
你在用哪一代医疗AI构建? 回复告诉我什么对你的产品有用(什么没用)。
下周见,
尤哥
这是我52周医疗AI内幕系列的一部分。每周我都会分享医疗AI中真正有效的东西(以及无效的东西)。
wk13