大型行动模型 - Large Action Models（下）

在上篇文章中，我们深入探讨了 Large Action Models（LAMs）的技术原理和实现方式。今天我们来看看这个"纸上谈兵"的技术是如何在现实世界中落地的，又面临着什么样的挑战。

市场玩家大解密

LAMs 领域现在可以说是"群雄逐鹿"的状态。各家公司都在用自己的方式诠释什么是"会动手的AI"，策略也各不相同。让我们来看看这些主要玩家。

Rabbit：硬件先行的消费级革命者

说起LAMs，很多人第一个想到的就是Rabbit公司的r1设备。这家公司可以说是把LAMs概念带到大众面前的"布道者"。

An image to describe post

Rabbit的创始人吕骋（Jesse Lyu）是个很有意思的人物。他之前在国内创办了Raven Tech，被百度收购后，他又跑到硅谷重新创业。r1设备的发布确实很有戏剧性——在2024年国际消费电子展（CES）展会上，这个橙色的小方块设备瞬间成了全场焦点，首批1万台在24小时内就被抢光了。

从产品设计上看，r1确实很有想法。它不是想做另一个智能手机，而是想颠覆整个App生态。用户不需要下载各种App，只需要通过语言和r1对话，它就能帮你完成各种任务——订外卖、叫车、播放音乐、甚至操作复杂的软件。

但现实总是骨感的。r1上市后的评价相当两极化。支持者觉得这是未来交互方式的雏形，批评者则认为它只是"解决了一个不存在的问题"。最大的问题是，很多功能其实用手机也能做，为什么要多带一个设备？

不过从商业策略上看，Rabbit的思路是清晰的：通过一个吸引眼球的硬件产品来教育市场，让大家理解LAMs的价值。即使r1本身不成功，也为后续的软件服务奠定了基础。

Adept：技术至上的企业服务专家

如果说Rabbit是个善于营销的创业公司，那么Adept就是个低调的技术巨头。这家公司的创始团队来头不小，汇集了Google、OpenAI、DeepMind的技术大牛，包括前OpenAI研究副总裁David Luan(已离开Adept)。

An image to describe post

Adept的核心产品ACT-1（Action Transformer）从名字就能看出技术派的风格。这不是一个消费级产品，而是一个专门为企业设计的AI助手。它的能力确实令人印象深刻——在演示中，ACT-1能够理解"在Salesforce中找到年收入超过1000万美元的潜在客户"这样的复杂指令，然后自主完成一系列网页操作。

Adept选择的路径很明确：专注企业市场，追求技术的实用性和可靠性。他们不做花哨的硬件，不追求媒体关注，而是踏踏实实地解决企业的真实痛点。在很多大公司，员工每天都要在各种软件系统之间切换，处理大量重复性的操作，这正是ACT-1的用武之地。

从商业角度看，企业市场的付费意愿更强，对技术可靠性的要求也更高。Adept的这个选择很聪明，避开了消费级市场的激烈竞争，在一个相对蓝海的领域建立自己的护城河。

Salesforce：平台化的生态建设者

An image to describe post

相比前两家公司，Salesforce的打法更加"老练"。作为CRM领域的老大，他们很清楚企业客户需要什么，也知道如何在现有生态基础上做创新。

Salesforce的xLAM系列模型有个很明显的特点：不追求大而全，而是做专而精。他们开发了从1B到8x22B参数的不同规模模型，针对不同的使用场景进行优化。这种模块化的策略很符合企业客户的实际需求——有些任务需要强大的推理能力，有些只需要快速响应。

https://arxiv.org/abs/2409.03215

xLAM: A Family of Large Action Models to Empower AI Agent Systems

https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

xLAM models

更重要的是，Salesforce在做生态建设。他们开发的ActionStudio框架是开源的，目的是让更多开发者能够参与到LAMs的生态建设中来。这种平台化的思路很有战略眼光——与其自己闷头做产品，不如建立标准、吸引合作伙伴、做大整个市场。

在技术路线上，Salesforce明确选择了API优先的策略。这很符合他们的基因——作为云服务提供商，他们本身就有丰富的API生态。相比GUI自动化的不稳定性，API调用更加可靠，也更容易审计和管理。

科技巨头们的不同策略

除了这些专门做 LAMs 的公司，科技巨头们也在以各自的方式进入这个领域。

微软的 Windows 优势：微软拥有得天独厚的优势——他们控制着 Windows 操作系统。Copilot+ PC 的推出让 AI 助手能够深度集成到操作系统层面。如果 LAMs 能直接调用 Windows 的 API，那它几乎可以操作电脑上的任何软件。

Google 的研究导向：Google 在 LAMs 方面更多是在做基础研究。他们的 Gemini 模型在多模态理解方面表现出色，这为 LAMs 的视觉感知能力奠定了基础。

现实世界的挑战

理想很丰满，现实很骨感。LAMs 在走向实用化的过程中，面临着很多技术之外的挑战。

稳定性：AI也会"手抖"

LAMs 最大的问题就是稳定性。传统的软件自动化脚本虽然功能有限，但至少是可预期的——同样的输入总能得到同样的输出。但 LAMs 基于神经网络，本质上是概率性的。

举个例子，让 LAMs 去订餐。它第一次可能顺利完成任务，但第二次可能因为餐厅网站的一个小改动就卡住了。更糟糕的是，你很难预测它会在哪里出错。

这种不确定性对企业应用来说是致命的。没有哪个公司敢让一个可能随机出错的 AI 来处理重要的业务流程。

安全性：给AI权限就像给孩子玩火

让AI直接操作系统，就像给一个孩子火柴一样——可能会帮你点蜡烛，也可能把房子烧了。如果LAMs被黑客利用，或者出现了意外的误操作，后果可能很严重。比如，如果一个LAMs在处理财务系统时出现了bug，可能会造成巨大的经济损失。

现在的解决方案主要是通过权限控制和沙盒环境来降低风险，但这些措施往往会限制 LAMs 的能力。如何在安全性和功能性之间找到平衡，是一个需要慢慢摸索的过程。

成本压力：训练数据比黄金还贵

要训练一个好用的LAMs，需要大量高质量的操作演示数据。这些数据不能随便从网上爬取，而是需要人工精心制作——记录每一个操作步骤、标注每一个界面元素、验证每一个执行结果。这个过程的成本极高，有时候比开发传统软件还要昂贵。

而且不同的软件、不同的使用场景都需要专门的训练数据。这意味着即使有了一个强大的基础模型，要适配到特定的企业环境中，仍然需要大量的定制化工作。

用户体验：从期望到失望

LAMs 的另一个问题是用户期望管理。科技媒体和创业公司往往会过度渲染 LAMs 的能力，让用户以为这是一个万能的数字助手。但实际体验往往与期望有很大差距。

这种期望与现实的落差可能会伤害 LAMs 的长期发展。就像早期的语音助手一样，如果用户在初期体验中失望了，很可能就不会再给第二次机会。

从理想到现实的路径

虽然挑战不少，但LAMs的发展趋势还是让人充满期待的。这个领域的未来可能不会是一条直线，而是会经历几个不同的发展阶段。

短期内：专业化是王道

未来两三年里，我们可能会看到更多"专才"型的LAMs出现。与其做一个什么都能做但什么都做不好的"通才"，不如专注于某个特定领域做到极致。

比如专门处理客服工作的LAMs，它们只需要掌握几个CRM系统和聊天工具的操作，但在这个范围内能做到近乎完美。或者专门做数据分析的LAMs，虽然不能订外卖，但在Excel和SQL方面比人类分析师还要熟练。

这种专业化的趋势其实很符合商业逻辑——企业更愿意为解决具体问题付费，而不是为了一个功能丰富但不太可靠的工具买单。

中期：生态整合成为关键

再过五到十年，LAMs可能会经历一个大整合的阶段。各种专门化的LAMs会开始相互连接，形成一个更大的智能体网络。

这时候MCP（模型上下文协议）这样的标准化协议就会发挥重要作用。就像互联网通过TCP/IP协议连接了全世界的计算机一样，标准化的AI协议可能会连接不同的LAMs，让它们能够相互协作完成更复杂的任务。

用户可能不需要知道背后有多少个不同的LAMs在工作，他们只需要对一个统一的接口说话，系统会自动调度最合适的AI来处理不同的子任务。

长期：重新定义人机交互

从更长远的角度看，LAMs可能会彻底改变我们与数字世界的交互方式。现在我们还在通过点击、输入这些相对原始的方式操作电脑，但未来可能会更加自然和直观。

这不只是技术的进步，更是理念的转变。AI从一个被动的工具，变成了主动的伙伴。它不再只是回答你的问题，而是能够理解你的意图，主动帮你完成目标。

当然，这个转变也会带来新的问题：当AI能够代替人类处理越来越多的任务时，人类的价值在哪里？如何确保AI的行为符合人类的价值观？这些都是需要我们提前思考的问题。

现实一点说

不过话说回来，技术的发展往往比我们预期的要慢，但影响比我们想象的要大。LAMs可能不会像一些人预测的那样快速普及，但一旦成熟，它对工作方式和生活方式的改变可能是颠覆性的。

无论如何，我们正在见证AI从"能说会道"到"亲力亲为"的历史性转变。这个转变的终点在哪里，现在还很难说，但这个过程本身就已经足够令人兴奋了。

#LargeActionModels #AI市场 #人工智能 #未来展望

#AI创新 #生态整合 #人机交互