在上篇文章中,我们深入探讨了 Large Action Models(LAMs)的技术原理和实现方式。今天我们来看看这个"纸上谈兵"的技术是如何在现实世界中落地的,又面临着什么样的挑战。

市场玩家大解密

LAMs 领域现在可以说是"群雄逐鹿"的状态。各家公司都在用自己的方式诠释什么是"会动手的AI",策略也各不相同。让我们来看看这些主要玩家。

Rabbit:硬件先行的消费级革命者

说起LAMs,很多人第一个想到的就是Rabbit公司的r1设备。这家公司可以说是把LAMs概念带到大众面前的"布道者"。

An image to describe post

Rabbit的创始人吕骋(Jesse Lyu)是个很有意思的人物。他之前在国内创办了Raven Tech,被百度收购后,他又跑到硅谷重新创业。r1设备的发布确实很有戏剧性——在2024年国际消费电子展(CES)展会上,这个橙色的小方块设备瞬间成了全场焦点,首批1万台在24小时内就被抢光了。

从产品设计上看,r1确实很有想法。它不是想做另一个智能手机,而是想颠覆整个App生态。用户不需要下载各种App,只需要通过语言和r1对话,它就能帮你完成各种任务——订外卖、叫车、播放音乐、甚至操作复杂的软件。

但现实总是骨感的。r1上市后的评价相当两极化。支持者觉得这是未来交互方式的雏形,批评者则认为它只是"解决了一个不存在的问题"。最大的问题是,很多功能其实用手机也能做,为什么要多带一个设备?

不过从商业策略上看,Rabbit的思路是清晰的:通过一个吸引眼球的硬件产品来教育市场,让大家理解LAMs的价值。即使r1本身不成功,也为后续的软件服务奠定了基础。

Adept:技术至上的企业服务专家

如果说Rabbit是个善于营销的创业公司,那么Adept就是个低调的技术巨头。这家公司的创始团队来头不小,汇集了Google、OpenAI、DeepMind的技术大牛,包括前OpenAI研究副总裁David Luan(已离开Adept)。

An image to describe post

Adept的核心产品ACT-1(Action Transformer)从名字就能看出技术派的风格。这不是一个消费级产品,而是一个专门为企业设计的AI助手。它的能力确实令人印象深刻——在演示中,ACT-1能够理解"在Salesforce中找到年收入超过1000万美元的潜在客户"这样的复杂指令,然后自主完成一系列网页操作。

Adept选择的路径很明确:专注企业市场,追求技术的实用性和可靠性。他们不做花哨的硬件,不追求媒体关注,而是踏踏实实地解决企业的真实痛点。在很多大公司,员工每天都要在各种软件系统之间切换,处理大量重复性的操作,这正是ACT-1的用武之地。

从商业角度看,企业市场的付费意愿更强,对技术可靠性的要求也更高。Adept的这个选择很聪明,避开了消费级市场的激烈竞争,在一个相对蓝海的领域建立自己的护城河。

Salesforce:平台化的生态建设者

An image to describe post

相比前两家公司,Salesforce的打法更加"老练"。作为CRM领域的老大,他们很清楚企业客户需要什么,也知道如何在现有生态基础上做创新。

Salesforce的xLAM系列模型有个很明显的特点:不追求大而全,而是做专而精。他们开发了从1B到8x22B参数的不同规模模型,针对不同的使用场景进行优化。这种模块化的策略很符合企业客户的实际需求——有些任务需要强大的推理能力,有些只需要快速响应。

https://arxiv.org/abs/2409.03215

xLAM: A Family of Large Action Models to Empower AI Agent Systems

https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

xLAM models

更重要的是,Salesforce在做生态建设。他们开发的ActionStudio框架是开源的,目的是让更多开发者能够参与到LAMs的生态建设中来。这种平台化的思路很有战略眼光——与其自己闷头做产品,不如建立标准、吸引合作伙伴、做大整个市场。

在技术路线上,Salesforce明确选择了API优先的策略。这很符合他们的基因——作为云服务提供商,他们本身就有丰富的API生态。相比GUI自动化的不稳定性,API调用更加可靠,也更容易审计和管理。

科技巨头们的不同策略

除了这些专门做 LAMs 的公司,科技巨头们也在以各自的方式进入这个领域。

微软的 Windows 优势:微软拥有得天独厚的优势——他们控制着 Windows 操作系统。Copilot+ PC 的推出让 AI 助手能够深度集成到操作系统层面。如果 LAMs 能直接调用 Windows 的 API,那它几乎可以操作电脑上的任何软件。

Google 的研究导向:Google 在 LAMs 方面更多是在做基础研究。他们的 Gemini 模型在多模态理解方面表现出色,这为 LAMs 的视觉感知能力奠定了基础。

现实世界的挑战

理想很丰满,现实很骨感。LAMs 在走向实用化的过程中,面临着很多技术之外的挑战。

稳定性:AI也会"手抖"

LAMs 最大的问题就是稳定性。传统的软件自动化脚本虽然功能有限,但至少是可预期的——同样的输入总能得到同样的输出。但 LAMs 基于神经网络,本质上是概率性的。

举个例子,让 LAMs 去订餐。它第一次可能顺利完成任务,但第二次可能因为餐厅网站的一个小改动就卡住了。更糟糕的是,你很难预测它会在哪里出错。

这种不确定性对企业应用来说是致命的。没有哪个公司敢让一个可能随机出错的 AI 来处理重要的业务流程。

安全性:给AI权限就像给孩子玩火

让AI直接操作系统,就像给一个孩子火柴一样——可能会帮你点蜡烛,也可能把房子烧了。如果LAMs被黑客利用,或者出现了意外的误操作,后果可能很严重。比如,如果一个LAMs在处理财务系统时出现了bug,可能会造成巨大的经济损失。

现在的解决方案主要是通过权限控制和沙盒环境来降低风险,但这些措施往往会限制 LAMs 的能力。如何在安全性和功能性之间找到平衡,是一个需要慢慢摸索的过程。

成本压力:训练数据比黄金还贵

要训练一个好用的LAMs,需要大量高质量的操作演示数据。这些数据不能随便从网上爬取,而是需要人工精心制作——记录每一个操作步骤、标注每一个界面元素、验证每一个执行结果。这个过程的成本极高,有时候比开发传统软件还要昂贵。

而且不同的软件、不同的使用场景都需要专门的训练数据。这意味着即使有了一个强大的基础模型,要适配到特定的企业环境中,仍然需要大量的定制化工作。

用户体验:从期望到失望

LAMs 的另一个问题是用户期望管理。科技媒体和创业公司往往会过度渲染 LAMs 的能力,让用户以为这是一个万能的数字助手。但实际体验往往与期望有很大差距。

这种期望与现实的落差可能会伤害 LAMs 的长期发展。就像早期的语音助手一样,如果用户在初期体验中失望了,很可能就不会再给第二次机会。

从理想到现实的路径

虽然挑战不少,但LAMs的发展趋势还是让人充满期待的。这个领域的未来可能不会是一条直线,而是会经历几个不同的发展阶段。

短期内:专业化是王道

未来两三年里,我们可能会看到更多"专才"型的LAMs出现。与其做一个什么都能做但什么都做不好的"通才",不如专注于某个特定领域做到极致。

比如专门处理客服工作的LAMs,它们只需要掌握几个CRM系统和聊天工具的操作,但在这个范围内能做到近乎完美。或者专门做数据分析的LAMs,虽然不能订外卖,但在Excel和SQL方面比人类分析师还要熟练。

这种专业化的趋势其实很符合商业逻辑——企业更愿意为解决具体问题付费,而不是为了一个功能丰富但不太可靠的工具买单。

中期:生态整合成为关键

再过五到十年,LAMs可能会经历一个大整合的阶段。各种专门化的LAMs会开始相互连接,形成一个更大的智能体网络。

这时候MCP(模型上下文协议)这样的标准化协议就会发挥重要作用。就像互联网通过TCP/IP协议连接了全世界的计算机一样,标准化的AI协议可能会连接不同的LAMs,让它们能够相互协作完成更复杂的任务。

用户可能不需要知道背后有多少个不同的LAMs在工作,他们只需要对一个统一的接口说话,系统会自动调度最合适的AI来处理不同的子任务。

长期:重新定义人机交互

从更长远的角度看,LAMs可能会彻底改变我们与数字世界的交互方式。现在我们还在通过点击、输入这些相对原始的方式操作电脑,但未来可能会更加自然和直观。

这不只是技术的进步,更是理念的转变。AI从一个被动的工具,变成了主动的伙伴。它不再只是回答你的问题,而是能够理解你的意图,主动帮你完成目标。

当然,这个转变也会带来新的问题:当AI能够代替人类处理越来越多的任务时,人类的价值在哪里?如何确保AI的行为符合人类的价值观?这些都是需要我们提前思考的问题。

现实一点说

不过话说回来,技术的发展往往比我们预期的要慢,但影响比我们想象的要大。LAMs可能不会像一些人预测的那样快速普及,但一旦成熟,它对工作方式和生活方式的改变可能是颠覆性的。

无论如何,我们正在见证AI从"能说会道"到"亲力亲为"的历史性转变。这个转变的终点在哪里,现在还很难说,但这个过程本身就已经足够令人兴奋了。

#LargeActionModels #AI市场 #人工智能 #未来展望