
2026年2月10日到11日,一个平平无奇的48小时。
- 智谱GLM-5深夜上线,代码里直接继承DeepSeekV2ForCausalLM
- 阿里Qwen-Image-2.0发布,汉字渲染精细到电商海报终于“可用”
- MiniMax M2.5静默更新,已在海外Agent产品内测
- 讯飞星火X2官宣,单台昇腾服务器就能跑起293B MoE
- 中科院飞鱼-1.0交付,南海海气耦合预测——只用3年数据,挑战欧美20年积累
- 百度文心5.0的全模态叙事,在这个窗口期被反复讨论
- DeepSeek 1M上下文能力的更新,也在同频服务着全球开发者
七家团队,密集出手。
但没有一家甩出那张红蓝对比的全能雷达图。
取而代之的,是各家在自己选定的赛道上,亮出的单项成绩单。
这比任何“全能冠军”的叙事都更重要。
中国大模型产业,正在静悄悄地完成一场底层切换:
不再只用别人的尺子丈量自己。
判断一:对标叙事没有消失,但它完成了“分化”
2026年2月11日,智谱GLM-5发布。
官方通稿写得清清楚楚:“在真实编程场景的使用体感逼近Claude Opus 4.5,擅长复杂系统工程与长程Agent任务。”
这是对标。明牌、公开、白纸黑字。
同一天——
讯飞星火X2官宣,通稿只字未提GPT、Claude、Gemini;
阿里Qwen-Image-2.0上线,传播主轴是汉字渲染精度、电商场景降本;
中科院飞鱼-1.0交付,对标的是“欧美20年积累”的海气耦合系统,不是任何通用对话模型。
这是2026年2月11日的真实图景:有人在“对标”,有人没有。
但“对标”这两个字的内涵,已经和三年前完全不同了。
变化一:从“全面对标”到“垂直对标”
2023年10月,百度世界大会。
李彦宏在台上说:“文心大模型4.0的综合水平跟GPT-4比毫不逊色。”
那是全面对标——我的模型在“综合能力”这个无限维度上,和你的旗舰产品旗鼓相当。
这是一个近乎不可能被证伪、也几乎不可能被证实的命题。
它的真实功能是身份认证:证明“我也是这个牌桌上的玩家”。
2026年2月,智谱GLM-5的对标是另一种句式:
“在编程场景的使用体感上逼近Claude Opus 4.5。”
它切出了一个具体的维度——代码生成、复杂工程任务。
它没有声称自己在“所有方面”对标,只在一个它验证过、有信心的垂直场景建立了参照系。
这不是“追赶者证明自己入局”的对标。
这是“赛手在单项上亮出成绩单”的对标。
变化二:从“身份认证”到“能力坐标”
2023–2024年的对标,本质上是借他人的坐标系定义自己。
那时,“我们是中国的OpenAI”“我们的模型达到GPT-4水平”,是一张入场券。
你不这么说,媒体不知道如何介绍你,客户不知道如何评估你,甚至你自己都不知道如何定位自己。
2026年的对标,则是用他人的产品作为能力刻度。
当智谱说“编程体感逼近Opus 4.5”,它不是在说“我是中国的Claude”。
它在说的是:在这个具体任务上,你可以用这个刻度来丈量我的水平。
这是一种技术自信——
不再需要借用对方的品牌完成自我定义,
只需要借用对方的产品作为度量衡。
就像中国高铁说“运营时速达到世界领先水平”,它不需要说“我们是日本的新干线”。
它只是在陈述一个可测量的事实。
变化三:对标与复用可以同时发生
更有意味的是:
智谱一边在通稿里对标Claude Opus 4.5,一边在代码里继承DeepseekV2ForCausalLM。
左手与海外旗舰在特定赛道上正面竞争,
右手接过国产开源社区的基础设施。
这在三年前是不可想象的。
那时的行业逻辑是“全栈自研”的执念——复用他人架构与对标海外旗舰,在舆论场上几乎互斥。
但今天,智谱用行动拆掉了这堵墙:
在架构层复用开源,在能力层对标领先——这两件事不矛盾。
这是产业进入“开放式创新”阶段的标志。
竞争与合作不再是非黑即白,技术流动不再有“血统焦虑”。
结论:坐标系已经换了。
2026年2月11日,智谱GLM-5确实在“对标”。
但这个对标已经不是三年前的那个对标。
它不再试图用别人的卷尺丈量自己的全身,而是在自己选定的项目上,与对手比一次单项。
这不是对标叙事的延续,
这是对标叙事的分化。
而分化的本质,是中国模型公司终于拥有了自定义坐标系的权力。
——他们仍然会参考别人的刻度,
但他们自己决定测什么、怎么测、以及什么时候不再需要测。
判断二:开源已经取代自研,成为下一代模型的“默认起点”
智谱GLM-5的技术报告里,藏着一个容易被忽略的细节。
GlmMoeDsaForCausalLM这个类,直接继承自DeepseekV2ForCausalLM。
DSA(稀疏注意力)是DeepSeek五个月前开源的技术,
MTP(多标记预测)是DeepSeek的经典贡献。
不是“借鉴”,是代码继承。
两年前,复用开源架构是“不体面”;
今天,从零自研才是“不经济”。
智谱做了一个所有理性玩家都会做的选择:
把算力和研发资源从轮子制造,转移到垂直场景的差异化打磨上。
更宏观的信号是:
中国开源模型在全球开发者生态中的影响力,正在结构性上升。
2026年1月,国产开源大模型全球累计下载量突破100亿次。
美国曾经的标杆Llama,因为过度追求刷榜、牺牲轻量级可用性,留下的生态空白,正被DeepSeek、Qwen、MiniMax、GLM迅速填补。
极客邦科技《2026年趋势报告》说得直接:
“2026年,中国仍然继续以开源持续构建自身在AI领域的竞争力。除了模型开源本身,中国技术力量也将更加注重生态建设与应用落地。”
一个值得观察的信号:
2026年内,很可能看到更多主流模型厂商明确宣布——基于DeepSeek或Qwen的开源架构做二次开发。
开源社区的“被复用次数”正在成为衡量模型技术影响力的隐性指标。
它比榜单分数更诚实。

判断三:模型竞争的计量单位,已从“参数”切换为“场景ROI”
阿里Qwen-Image-2.0,专门优化复杂文字渲染与编辑能力。
不是为了在榜单上多拿0.1分。
是为了让电商卖家的详情页制作成本肉眼可见地降下来。
讯飞星火X2发布会,最硬核的幻灯片不是Benchmark排名。
是“讯飞晓医”APP通过三甲医院体系验证,
是教育场景步骤级批改、错因贯穿的个性化辅导能力。
瑞银在2026年1月的研判,戳破了最后一层窗户纸:
“中国模型的平均智能水平与美国最先进模型之间的差距正在逐渐缩小。”
而“在实际落地过程中,企业会关注单位模型的价格和性价比,而不是单纯追求最强性能。”
美国最先进的模型(GPT-5.2/Opus 4.6),API价格是中国同量级服务的8–10倍。
中国头部互联网大厂2025年的总资本开支约4000亿人民币,仅为美国同行的约1/10——却能实现相近的模型能力。
“每1元算力能解决多少实际问题”,正在取代参数量、上下文长度、跑分,成为模型能力的核心度量衡。
36氪的总结很到位:
“过去是拿着锤子找钉子,现在是用钉子的形状决定锤子的规格。”
可观察的信号:
到2026年底,主流模型厂商的官网首页,有可能不再只展示榜单分数,而是展示——
“单位成本可承载的日均对话量/任务完成量”。
大模型招标文件里,性价比权重正在史无前例地逼近技术先进性权重。
判断四:“垂直整合”正在取代“通用平台”,成为最凶猛的扩张路径
讯飞:模型+芯片(昇腾)+行业系统(医疗/教育),三层穿透。
星火X2,“基于全国产算力训练”,“单台昇腾服务器即可运行”。
百度:模型+芯片(昆仑芯)+应用(数字人直播),财报已见收入。
国内首个全自研三万卡昆仑芯集群已点亮。
2025年双11,数字人直播GMV同比增长91%,超10万商家使用。
阿里:模型+云+电商操作系统。
千问大模型深度接入淘宝、支付宝、飞猪,场景反哺模型迭代。
最新版千问App已经能“帮我点杯咖啡”——调用淘宝闪购、生成订单、支付宝AI付一键完成,全链路闭环。
瑞银的判断很清晰:
中美正在走两条不同的路。
美国更多押注通用人工智能路线,
而中国整体来看会有更多垂直应用,在不同场景中部署相应的模型。
中国工业体系成熟,应用场景多——
这正是中国企业资本开支更务实、更注重投入产出比的底气来源。
中国模型公司正在分化成两个物种:
一类是技术供应商——卖API、卖权重,追求通才。
另一类是垂直整合者——模型只是垂直行业解决方案的一个组件,追求在特定纵深里做到95分以上。
可观察的信号:
2026年,有可能出现第一家“模型收入占比低于50%”的头部AI公司。
它会重新被定义为“行业数字化公司”。
纯API业务正面临毛利率压力,被迫向更薄、更标准化的方向迁移。
判断五:Agent正在从“模型的下游任务”逆转为“模型的输入约束”
这是范式转移层面最深的变化。
MiniMax M2.5发布时,有一条信息被很多人跳过了:
“已在海外的MiniMax Agent产品进行内测。”
模型迭代,由Agent产品需求反向定义。
讯飞星辰Agent平台,智能体数量已超过130万。
跑的是真实的售后、排产、辅导流程。
三一重工基于千问大模型,打造了50多个AI Agent,覆盖研发、生产、销售、服务全链路。
工业巨头的“老师傅经验”——那些过去无法复制的非标知识——被全参数微调“焊”进了模型里。
中国证券报的观察很准:
“2026年1月,阿里、月之暗面、深度求索等企业相继推出新一代大模型。记者注意到,这些大模型厂商不再仅仅注重参数规模,而是着力打造大模型原生Agent能力,人工智能技术正从‘会聊天’向‘能办事’的范式不断演进。”
Agent不再是大模型做完后“加”的功能,它正在成为模型架构设计的输入参数。
以前的问题是:“我有一个强大的模型,如何用它做出Agent?”
现在的问题是:“我要支撑100万Agent并发、处理10轮以上的长程任务,模型应该长成什么样?”
需要泼一盆冷水:
Agent从“能跑通”到“能规模化”,中间隔着巨大的工程鸿沟。
讯飞130万智能体,真正能跑通复杂长程任务的占比是多少?没有公开。
MiniMax的海外Agent产品,还是内测。
三一重工的50个Agent覆盖全链路,但“老师傅经验”的萃取成本极高——不是每家企业都付得起。
信号不等于成熟度。
2026年更可能发生的场景是:大量Agent项目在POC阶段验证成功,然后……倒在ROI模型的压力测试里。
可观察的信号:
2026年下半年,有可能看到主流模型厂商发布“以Agent为第一公民”设计的原生架构。
论文风向标正在从“Agent on LLM”转向“LLM for Agent”。

判断六:复用开源不是终点,2026年正在诞生“中国原创架构”
2024–2025是中国模型的“开源复用期”。
但复用不是目的,是争取研发时间。
2026年1月1日,DeepSeek发了一篇论文,叫mHC。
名字很绕(流形约束超连接),但解决的问题很硬:大模型越练越容易“炸梯度”的十年老病。
业内传闻,接下来的DeepSeek-V4,可能会有架构级的颠覆性设计。
当然,目前还是传闻。
2026年1月29日,北京智源人工智能研究院的“悟界·Emu3”登上了Nature正刊。
这是中国第一篇围绕多模态大模型路线的Nature论文。
Nature编辑的点评很有意思:
“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当。”
前OpenAI政策主管、现Anthropic联合创始人Jack Clark当时评价:
“不依赖花哨的架构技巧,仅用最基础的‘预测下一个token’逻辑,这种‘简单’被视为具备强大的扩展潜力。”
智源研究院院长王仲远说:
“越是极简的架构,可能越具备强大的生产力,对产业的价值也越大。”
讯飞星火X2,在昇腾上完成量化、低精度KVCache、VTP、分层通信优化——
全国产化硬约束下,把单台服务器的潜力榨干到极致。
百度文心5.0正式版,采用统一的自回归架构进行原生全模态建模,与业界多数“后期融合”方案截然不同。
一旦大家意识到——
Transformer+MoE不是物理定律,只是前人踩出来的一条路——
原创就会像雨后笋一样冒出来。
一个值得观察的信号:
2026年内,有可能出现更多中国大模型架构论文被NeurIPS/ICML收录为Oral的案例。
Emu3的Nature论文已打下基础,mHC等原创工作也在积累学术影响。
术语“流形约束”“稀疏激活分区”“测试时扩展机制”正在进入全球AI词典——
尽管普及程度还需要时间检验。
判断七:2026年的关键词不是“洗牌”,是“分层”
2.10–2.11这48小时,暴露了一个被喧嚣掩盖的事实:
这些玩家的路线,几乎没有一条是重合的。
- 智谱:代码/Agent垂直深耕。复用开源架构,但专攻编程场景的体感上限。
- MiniMax:以Agent产品牵引模型迭代,迭代速度压缩到月级别。
- 讯飞:医疗教育重行业。国产算力硬约束下的工程极致。
- 百度:全模态+云+芯片+应用全家桶。押注终局架构。
- DeepSeek:公共基础设施层。给所有人造更便宜的车轮。
- 中科院:科学计算垂直域。3年数据挑战20年积累。
- 阿里:电商操作系统级嵌入,场景反哺模型迭代;同时以开源战略构建生态影响力。
瑞银的研判为这一分层提供了宏观注脚:
中国出现系统性AI泡沫的概率远低于美国。
因为“中国模型厂商没有太多循环融资现象,资本开支策略更加务实、谨慎,数据中心有真实的AI需求支撑”。
未来三年,中国大模型产业有可能不会出现“赢家通吃”,而是出现清晰的“分层格局”。
每一层有自己的生存逻辑:
- 基础设施层:提供开源权重、低成本API、架构创新(如DeepSeek、智源)
- 垂直应用层:在特定行业做到95分,不追求通用泛化(如讯飞、智谱部分业务)
- 体验产品层:以Agent/Companion形态直接服务C端(如MiniMax、千问App)
- 全栈整合层:从芯片到模型到应用,一体化交付(如百度、阿里)
可观察的信号:
2026年底,将很难看到模型公司声称自己是“中国OpenAI”。
因为OpenAI本身也只是一个垂类(ChatGPT订阅)。
资本市场正在学会对不同层级的公司,使用不同的估值模型。
终局视角:中美AI,差在哪里?走向何方?
以上七个判断,共同指向一个事实:
中国模型产业已经进入“自定义坐标系”的阶段。
但拥有自定义的坐标,不等于在所有维度上都已领先。
在这个节点客观审视中美差距,不是为了谦逊,而是为了看清下一阶段真正的决胜点。
美国依然握住的“三张底牌”
第一,前沿模型的“绝对智力上限”。
OpenAI GPT-5.2、Anthropic Claude Opus 4.6在MMLU、HumanEval、MATH等综合基准上仍保持3–5% 的领先优势。
更重要的是,它们在复杂推理、长程多步规划、少样本泛化等认知密集型任务上的表现,仍是国产模型尚未稳定跨越的门槛。
第二,下一代范式的定义权。
英伟达Jim Fan提出的“世界建模(World Modeling)”被认为是继“下一个词预测”之后的第二个预训练范式。
物理AI、具身智能、3D环境中的视觉思维链——
这些前沿命题的问题框架、评测基准、核心技术路径,目前仍主要由美国实验室定义。
尽管智源的Emu3系列已在世界模型领域取得重要突破,但从“单点突破”到“范式定义”仍有距离。
第三,高端算力的持续封锁。
2025年10月,美国对华先进制程及HBM存储芯片的出口管制进一步升级。
尽管国产芯片在集群效应上已有突破(如百度三万卡昆仑芯集群),但单卡性能、软件栈成熟度、全球供应链掌控力,美国依然握有不对称优势。
中国已经建立的“三道壁垒”
第一,效率创新的“范式级突破”。
2023年,中美顶尖模型在关键基准上的差距还保持在两位数百分比。
到2025年底,这一差距已缩小至5%以内。
而达成这一接近水平的成本,中国是美国的1/5到1/10。
更关键的是:美国模型的能力增长已出现边际收益递减。
GPT-5.2相比5.0的提升幅度,远小于GPT-4到5;
而中国模型通过架构创新(mHC、MLA、Emu3的统一自回归架构)、稀疏激活、量化压缩,在有限算力下榨出的智力增量,斜率仍然陡峭。
第二,产业渗透的“深度优势”。
兰德公司2026年1月的报告,揭示了一个让华盛顿焦虑的事实:
中国制造业的AI采用率高达67%,而美国仅为34%。
这不是量的差异,是质的分野。
美国企业的AI应用多停留在库存管理、需求预测等后台任务;
而在中国,AI已进入钢铁熔炉的温度控制、煤矿井下的瓦斯预测、港口的龙门吊协同调度——
核心生产流程,而非边缘辅助环节。
小鹏汽车基于阿里云算力集群,建成国内汽车行业首个10 EFLOPS规模的AI算力集群,从云到端的全链路迭代周期可达平均5天一次。
这种迭代速度,是产业深度优势最直观的注脚。
第三,开源生态的“全球影响力”。
2025年是分水岭。
如今,全球开发者下载量最高的前十个开源模型中,六个出自中国团队。
这是开发者心智的争夺,其影响将以三年、五年为周期持续释放。
瑞银分析师的观察是:
“中国模型的性价比优势在全球具有竞争力,未来可能会看到更多中国模型走向海外市场。”
未来走向:不是“谁赢谁输”,是“双寡头分工”
综合瑞银、兰德、FT及多家产业智库2026年初的最新研判,中美AI竞赛的未来格局可以概括为一句话:
美国领先“从0到1”的颠覆式创新,中国领跑“从1到100”的规模化渗透。
这不是“追赶者与领跑者”的同轨竞速,而是两条异化的技术路线,在不同约束条件下各自演化,最终形成互补性分工。
美国路径的特征:供给侧创新驱动。
通过推高模型智能上限,定义“什么是AI”,并向全球输出标准与基础设施。
这套打法的终局能力是——定义下一代技术范式。
中国路径的特征:需求侧扩散驱动。
通过极致性价比,把“足够好”的模型塞进每一个工业流程、每一台智能硬件、每一笔商业交易,并在规模化过程中反向提炼出独特的技术优化路径。
这套打法的终局能力是——定义“AI究竟能创造多少实际价值”。
瑞银中国股票策略研究主管王宗豪的判断很实在:
“中国AI投资收入贡献可能不及美国,但由于美国在电力和数据中心等基础设施方面存在约束,中国在回报率上未必处于劣势。”
《金融时报》在2026年1月的判断是:
“这场竞赛应该被视为一场马拉松,而不是争夺最强大模型的短跑。”
马拉松的决胜点,从来不是前10公里谁领先。
风险与不确定性:未被写进七个判断的“另一面”
以上所有判断,均基于当前可观测的事实与相对乐观的产业情境。
但作为一篇负责任的产业分析,有必要单独开辟一节,讨论那些可能让上述判断失效的风险因素。
第一,美国对华技术管制的“工具箱”远未用尽。
2025年10月的HBM管制仅是序幕。
若美国将管制范围扩大至成熟制程半导体设备、EDA软件、甚至开源AI框架的授权协议,中国模型产业的“开源复用”路径将面临根本性挑战。
第二,国产算力的“集群胜利”背后,单点差距仍在拉大。
百度三万卡昆仑芯集群的建成是里程碑,但英伟达B200已进入量产、Rubin架构已在路上。
国产芯片在单卡算力、能效比、软件栈成熟度上的代际差距,并未因集群规模的扩大而自然弥合。
若推理成本优势主要来自人力成本和商业模式创新,而非底层硬件的根本突破,这一优势的可持续性需要审慎评估。
第三,Agent的“大规模应用”仍卡在工程与信任的双重关口。
Clawdbot用户反映过一个问题:在未确认的情况下,AI自动重新整理了整个文件夹结构。
这是所有Agent系统必须面对的拷问:当自主性提升,可控性必然下降。
腾讯董事会主席马化腾近日明确表示:
“AI全家桶未必是大家都喜欢的,腾讯将继续坚持去中心化,以兼顾用户需求和隐私安全的方式来思考规划微信的智能生态。”
清华大学科技发展与治理研究中心主任助理陈天昊认为:
“端侧智能体的广泛部署将对网络安全、信息隐私以及产业生态等多方面构成失序挑战。”
第四,开源主导模式可能带来“创新公地悲剧”。
当复用开源成为默认起点,少数承担基础架构创新的机构(如DeepSeek、智源)能否获得与其贡献相匹配的回报?
若基础设施层的商业闭环无法形成,整个分层格局的地基将面临松动。
第五,中美“分岔”可能演变为“脱钩”。
本文的“双寡头分工”假设,建立在全球技术生态仍保持有限流动的前提下。
若地缘政治压力导致技术标准、开源社区、学术交流的进一步割裂,中美AI将不再是“两条异化的路线”,而是两套互不兼容的系统。
到那时,中国模型产业面临的将不是“自定义坐标”的自信,而是“重新发明轮子”的沉重。
这些风险并未在七个判断中充分展开。
它们不构成对前述乐观推演的否定,但构成了必要的**“压力测试”清单**。
写在最后
2026年2月11日深夜,智谱GLM-5上线,距离DeepSeek开源架构更新不到两周。
同一天,MiniMax M2.5在海外Agent产品内测,讯飞星火X2的昇腾集群在合肥跑完第10万次行业推理任务。
有人在单项赛道上对标海外旗舰,
有人完全不提任何参照系,
有人在国产算力山路上独自铺轨。
没有一张“全能雷达图”能装下所有这些路线。
这比任何“全能冠军”的叙事都更重要。
中国大模型产业,终于学会了用自己的坐标系走路。
坐标系的原点还在移动,刻度的密度还在调试,连测量的项目都还在增减。
前边要翻的山还很多:
- 美国的技术压制不会停
- 国产算力离“好用”还有一段路
- Agent能不能真的干活,还是工程难题
- 做开源的人怎么吃饭,没人想明白
但至少,执尺的手,已经不再是别人的手。
而一旦开始用自己的尺子丈量世界,真正的竞赛才刚开始。
七个判断,写在2026年春天。
这个夏天,我们回来检验。
reference: