原文 https://vintagedata.org/blog/posts/model-is-the-product

模型即产品

过去几年里,关于人工智能未来的发展方向,人们出现了各种猜测——是智能体 (Agent)?推理器 (Reasoner)?还是彻底多模态?

现在,我可以肯定地说:模型即产品。

当前研究和市场发展中的所有因素都朝着这个方向发展。

  • 通用模型的规模化发展正陷入瓶颈。GPT-4.5 的发布,正是为了传达这个核心信息:能力呈线性增长,而计算成本却呈几何级数增长。即使在过去两年中,训练和基础设施的效率都得到了显著提高,OpenAI 也难以以可承受的价格大规模部署这个巨型模型。
  • 定向训练的效果远超预期。强化学习与推理的结合使得模型具备了主动学习任务的能力。这既不属于传统意义上的机器学习,也不是单纯的基础模型,而是一种全新的范式。即使是小型模型,在数学方面也突然变得非常出色。代码模型不再只是生成代码,而是可以自主管理整个代码库。即使在上下文信息极度匮乏且未经专门训练的情况下,Claude 也能轻松驾驭宝可梦。
  • 推理成本呈断崖式下跌。DeepSeek 最近的优化表明,现有所有 GPU 的算力足以支持全球每人每天 1 万个 token 的前沿模型运算——而实际上这种需求远未出现。对于模型提供商来说,出售 token 的经济模式已经不再奏效:他们必须向价值链的更上游移动。

这个方向,多少让人有些不安。所有投资者都押注于应用层。在人工智能发展的下一阶段,应用层很可能最先被自动化和颠覆。

未来的模型会是什么样?

在过去的几周里,我们已经看到了新一代模型作为产品的两个典型例子:OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。

对于 DeepResearch,存在诸多误解,而大量涌现的开源和闭源克隆版本也无助于澄清这些误解。OpenAI 并没有在 O3 的基础上构建一个封装器 (wrapper)。他们训练了一个全新的模型,能够在内部执行搜索,而无需任何外部调用、提示或编排:

该模型学习了核心浏览能力(搜索、点击、滚动、解释文件)……以及如何推理以综合大量网站,从而找到特定的信息或通过强化学习训练编写全面的报告。

DeepResearch 不是一个标准的 LLM,也不是一个标准的聊天机器人。它是一种新的研究语言模型形式,专门设计用于执行端到端的搜索任务。对于每一个认真使用它的人来说,这种差异都非常明显:该模型生成冗长的报告,具有一致的结构和底层的来源分析过程。相比之下,正如 Hanchung Lee 强调的那样,所有其他的 DeepSearch,包括 Perplexity 和 Google 的变体,都只是你常见的模型,带有一些小的改动:

Google 的 Gemini 和 Perplexity 的聊天助手也提供“Deep Research”功能,但两者都没有发布任何关于他们如何优化模型或系统以完成任务的文献,也没有进行任何实质性的定量评估……我们假设所做的微调工作并不重要。

Anthropic 的愿景日渐清晰。去年 12 月,他们对智能体模型提出了一个有争议但(在我看来)正确的定义。与 DeepSearch 类似,智能体必须在内部执行目标任务:它们“动态地指导自己的流程和工具使用,保持对如何完成任务的控制”。

目前多数智能体初创公司实际在开发的,并非真正意义上的智能体,而是一整套预先设计代码路径下编排 LLM 与工具的工作流系统。工作流可能仍然会带来一些价值,尤其是在垂直领域的适配方面。然而,对于目前在大型实验室工作的人来说,显而易见的是,自主系统的所有重大进展都将首先通过重新设计模型来实现。

Claude 3.7 的发布就为此提供了一个非常具体的例证,该模型主要针对复杂的代码使用场景进行训练。像 Devin 这样的所有工作流适配都在 SWE 基准测试中得到了显著提升。

再举一个规模小得多的例子:在 Pleias,我们目前正在致力于自动化 RAG(Retrieval-Augmented Generation,检索增强生成)。当前的 RAG 系统是大量相互连接但脆弱的工作流:路由、分块、重排序、查询解释、查询扩展、来源情境化、搜索工程。随着训练技术栈的不断发展,完全有可能将所有这些过程捆绑到两个独立但相互连接的模型中,一个用于数据准备,另一个用于搜索/检索/报告生成。这需要一个精心设计的合成管道和全新的强化学习奖励函数。真正的训练,真正的研究。

总而言之,这些意味着什么?意味着复杂性的转移。训练预测了各种各样的动作和边缘情况,因此部署变得更加简单。但在这一过程中,大部分价值现在由模型训练者创造,并且最终可能被模型训练者捕获。简而言之,Claude 的目标是颠覆和取代当前的工作流,比如来自 Llama Index 的这个基本“智能体”系统:

An image to describe post

取而代之的是这个:

An image to describe post

训练或被训练

需要再次强调的是,大型实验室的进步并非出于不可告人的目的。虽然他们有时可能不透明,但他们正在公开地展示一切:他们将进行捆绑,他们将进入应用层,并且他们将试图在那里捕获大部分价值。商业后果非常明显。Databricks 的 Gen AI 副总裁 Naveen Rao 对此有精辟的见解:

所有封闭人工智能模型提供商将在未来 2-3 年内停止销售 API。只有开放模型将通过 API 提供……封闭模型提供商正在尝试构建非商品化的能力,并且他们需要出色的 UI 来交付这些能力。它不再只是一个模型,而是一个带有 UI 的应用程序,用于特定目的。

因此,现在发生的一切,很大程度上是一种否认。模型提供商和封装器之间的蜜月期已经结束。事情可能会朝着两个方向发展:

  • Claude Code 和 DeepSearch 是这一方向的早期技术和产品尝试。你会注意到 DeepSearch 无法通过 API 获得,只能用于为高级订阅创造价值。Claude Code 是一个极简的终端集成。奇怪的是,尽管 Claude 3.7 在 Claude Code 中表现出色,但 Cursor 却显得捉襟见肘,导致部分高端用户取消了订阅。真正的 LLM 智能体并不关心预先存在的工作流:它们会取代它。
  • 那些最受瞩目的封装器,如今正竞相转型为混合人工智能训练公司。他们确实拥有一些训练能力,尽管宣传很少。Cursor 的主要资产之一是他们的小型自动完成模型。WindSurf 拥有他们内部的廉价代码模型 Codium。Perplexity 一直依赖于内部分类器进行路由,并且最近转型为训练他们自己的 DeepSeek 变体以用于搜索目的。
  • 对于规模较小的封装器而言,情况可能不会有太大改变,除非大型实验室完全放弃这个市场,否则可能会更加依赖于不可知的推理提供商。我还预计会看到更多对 UI 的关注,UI 仍然被严重低估,因为即使是更通用的模型也可能会捆绑常见的部署任务,尤其是对于 RAG 而言。

对于绝大多数成功的封装器而言,都面临着一个简单的困境:训练,或者被训练。他们现在所做的是为大型实验室提供免费的市场研究,甚至,由于所有输出最终都是通过模型提供商生成的,因此也提供了免费的数据设计和生成。

之后会发生什么,谁也无法猜测。成功的封装器确实具有充分了解其垂直领域的优势,并且积累了大量宝贵的用户反馈。然而,以我的经验来看,从模型层向下到应用层比从头开始构建全新的训练能力更容易。封装器的发展也可能未能获得投资者足够的支持。从我听到的情况来看,人们对训练存在如此消极的看法,以至于他们几乎不得不隐藏将成为他们最关键价值的东西:无论是 Cursor 的小型模型还是 Codium,目前都没有得到适当的文档记录。

强化学习未被定价

接下来,我们不得不面对一个残酷的现实:目前所有的人工智能投资都存在关联性。基金在以下假设下运作:

  • 真正的价值完全在于独立于模型层的应用层,该应用层最适合颠覆现有市场。
  • 模型提供商将仅以不断降低的价格出售 token,从而使封装器变得更有利可图。
  • 封闭模型封装将满足所有现有需求,即使是在对外部依赖性长期存在担忧的受监管行业中。
  • 构建任何训练能力都只是浪费时间。这不仅包括预训练,还包括所有形式的训练。

恐怕这更像是一场冒险的赌博,也反映出市场未能准确评估最新的技术发展,尤其是在强化学习领域。在当前的经济生态系统中,风险投资基金旨在寻找不相关的投资。他们不会跑赢标准普尔 500 指数,但这不是大型机构投资者所寻求的:他们希望捆绑风险,确保在糟糕的年份至少有一些事情会奏效。模型训练就像一个教科书般完美的例子:在大多数西方经济体都面临衰退的情况下,它具有巨大的颠覆潜力。然而,模型训练者无法筹集资金,或者至少无法以通常的方式筹集资金。Prime Intellect 是为数不多的有潜力成为前沿实验室的西方人工智能训练公司之一。然而,尽管他们取得了包括训练第一个去中心化 LLM 在内的成就,但他们筹集到的资金仍然超不过通常的封装器。

除此之外,除了大型实验室之外,目前的训练生态系统非常小。你可以用双手数出所有这些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace 预训练团队(实际上很小)……以及一些更多的学术参与者(Allen AI、Eleuther……),他们构建并支持着当前大部分用于训练的开放基础设施。在欧洲,我知道至少有 7-8 个 LLM 项目将整合 Common Corpus 以及我们在 Pleias 开发的一些预训练工具——其余的将是 fineweb,并且很可能来自 Nous 或 Arcee 的后训练指令集。

即使是 OpenAI,如今也意识到了这个问题。最近,人们感到不满,认为当前的硅谷创业环境中缺乏“垂直强化学习”。我相信这条信息直接来自 Sam Altman,并且可能会导致下一批 YC 做出一些调整,但这表明了一个更大的转变:很快,大型实验室选择的合作伙伴将不再是 API 客户,而是参与早期训练阶段的相关承包商。

如果模型即产品,单打独斗将难以为继。搜索和代码是容易实现的低垂果实:两年来主要的用例,市场几乎成熟,你可以在几个月内交付一个新的 Cursor。现在,未来许多利润丰厚的人工智能用例并未处于这种先进的发展阶段——通常,可以考虑所有这些仍然统治着世界经济大部分领域的基于规则的系统……拥有跨领域专业知识和高度专注的小型专业团队可能最适合解决这个问题——最终有可能通过被收编(acquihire)的方式实现整合。我们可能会在 UI 方面看到同样的渠道。一些首选合作伙伴,获得对封闭式专业模型的独家 API 访问权限,前提是他们走上业务收购的道路。

至此,我尚未提及 DeepSeek 或中国实验室。仅仅是因为 DeepSeek 已经更进一步:不是将模型作为产品,而是作为通用基础设施层。像 OpenAI 和 Anthropic 一样,Lian Wenfeng 公开了他的计划:

我们认为,当前阶段是技术创新的爆发,而不是应用的爆发……如果形成完整的上游和下游产业生态系统,那么我们就不需要自己开发应用程序。当然,如果需要,我们开发应用程序也没有障碍,但研究和技术创新将始终是我们的首要任务。

在当前阶段,仍然只专注于应用程序开发,无异于“用上次战争的将领指挥下一次战争”。恐怕我们已经到了西方很多人甚至没有意识到上次战争已经结束的地步。