关于Agent的一些思考

在大学课程里，我一直没太弄懂宏。当时，在老师讲Fortran语言的过程中，用Excel表格里宏来进行相应的自动化计算。但这个宏是老师自己编程做的，我们只知道点击宏，可以实现某种复杂的计算。

这样的记忆一直埋没在深处，直到我研究AI Agent，才再一次遇见了宏。

1

在一篇聊自动化平台的演进的文章中，说：自动化是人类不懈追求的目标。每个知识工作者都熟悉"宏"这一朴素概念——通过重复指令序列的快捷方式来提高工作效率

那么什么是宏呢？

Excel 宏指的是，使用 Excel 内置的编程语言 VBA (Visual Basic for Applications）写的，能在 Excel 环境里运行的一系列操作指令。

可以说，与Excel相关的所有操作都可以通过宏实现自动化。

例如，每周一要更新在 Excel 中创建的数据，并将其绘制成图表。执行这项日常任务就可以使用“录制宏”，然后选择数据范围并在图表向导中设置图表格式。录制过一系列操作后，下次只需运行宏，就能自动执行相同的任务了。

2

在这里，我们可以看到宏具有两个诱人的特性：

宏可以帮你自动完成重复、批量的任务。
录制宏不需要其他技术，你只需把任务「演示」给 Excel 即可。

但复杂的任务是录制操作无法进行的，所以你还可以通过编写 VBA 代码完成更复杂的任务。

具体而言，Excel 宏的设计逻辑主要基于以下几个方面：

录制操作：Excel 宏可以通过录制用户的操作来生成宏代码。用户在 Excel 中执行一系列操作后，Excel 会自动记录这些操作并生成相应的 VBA（Visual Basic for Applications）代码。这种方式适合简单的重复性任务。
编写 VBA 代码：对于复杂的任务，用户可以直接编写 VBA 代码。VBA 是一种编程语言，允许用户创建更复杂和灵活的宏。通过 VBA，用户可以实现条件判断、循环操作、与其他 Office 应用程序的集成等高级功能。
事件驱动：宏可以绑定到特定的事件，例如工作簿打开、工作表更改、单元格点击等。这意味着当特定事件发生时，宏会自动执行，提供更高的自动化程度。
模块化设计：宏可以分成多个模块，每个模块执行特定的任务。这种设计使代码更加清晰，便于维护和重用。
用户交互：宏可以与用户交互，通过输入框、消息框等方式获取用户输入或提供反馈。这增强了宏的灵活性和实用性。

按照宏的思路，AI其实能够在这上面有很多提升空间。比如：

自动生成代码：
- 代码建议和自动补全：AI 可以根据用户的需求自动生成或建议 VBA 代码。例如，用户描述一个任务，AI 可以生成相应的宏代码，减少手工编写代码的时间和错误。
- 代码优化：AI 可以分析现有的 VBA 代码，并提供优化建议，例如提升运行效率、减少冗余代码等。
智能录制和理解：
- 智能录制：AI 可以通过更智能的录制方式理解用户的意图，而不仅仅是记录每一步操作。这样可以生成更高效和通用的代码。
- 操作意图理解：通过自然语言处理，AI 可以理解用户描述的操作意图，并生成相应的宏。例如，用户可以用自然语言描述他们想要的结果，AI 将生成相应的 VBA 代码。
自动化测试和调试：
- 自动化测试：AI 可以自动执行宏代码的测试，发现并修复潜在的错误或漏洞。
- 智能调试：AI 可以帮助调试 VBA 代码，通过分析错误信息和代码逻辑，提供调试建议和解决方案。
用户交互优化：
- 动态交互：AI 可以增强宏与用户的交互，通过更智能的输入框和对话框，实时响应用户的需求和调整操作。
- 自适应界面：根据用户的使用习惯，AI 可以优化用户界面和交互方式，提高使用体验。
事件驱动增强：
- 智能事件处理：AI 可以根据用户的使用模式和数据变化，智能地触发相应的宏操作，而不仅仅依赖预定义的事件。
- 预测性分析：通过分析用户行为和数据，AI 可以预测用户的需求并提前执行相应的操作，提供更高效的自动化解决方案。
模块化和重用：
- 智能模块推荐：AI 可以根据用户的需求，推荐相关的宏模块和代码片段，实现代码的重用和组合。
- 自动化模块化设计：AI 可以自动将复杂的任务分解为多个模块，并生成相应的代码，使宏设计更加模块化和可维护。

但目前，有很多公司通过AI来提升表格的功能并不在这个思路上，而是把AI作为一个智能助手，通过特定功能模块的智能化提升用户体验和工作效率。比如用户可以在多维表格中召唤出飞书的My AI，通过描述自己的需求场景，AI将自动生成命名好的数据表和相应的字段。

而AI Agent则是一个更复杂、更灵活的系统，能够自主处理多种任务并进行决策。

An image to describe post

3

在自动化发展上，扩展了宏的使用场景和功能，产生了机器人流程自动化 RPA（Robotic Process Automation）。

RPA可依据预先设定的程序，由软件机器人代替人工执行大批量、可重复性的操作任务，以实现流程自动化。只要是电脑上的重复性、标准化操作，RPA几乎都能将其自动化。

相比于宏，RPA可以跨多个软件和系统，能够模拟用户在界面上的操作，包括点击、输入、读取屏幕内容等，可以处理更多数据，以及更复杂的业务流程。

在这个领域，影刀在传统的PRA上融合了AI/ML 模型以拓展其能力。其具体业务场景包括：

客服
运营
财务

An image to describe post

除了对B端业务有帮助外，影刀还可以在C端发挥作用，比如爬取抖音、小红书等网页。

4

但RPA对很多人来说依旧是一个陌生的概念。现在，AI agent更别人熟知。

什么是AI agent呢？

自动化平台zapier如此定义：

An AI agent is an entity that can act autonomously in an environment. It can take information from its surroundings, make decisions based on that data, and act to transform those circumstances—physical, digital, or mixed. More advanced systems can learn and update their behavior over time, constantly trying out new solutions to a problem until they achieve the goal. Agent是一种可以在环境中自主行动的实体。它可以从周围环境中获取信息，根据这些数据做出决策，并采取行动改变这些环境——物理的、数字的或混合的。更先进的系统可以随着时间的推移学习和更新它们的行为，不断尝试解决问题的新方法，直到它们实现目标。

相比于RPA，AI agent具有自主决策能力和学习能力，而不是依赖于预定义的规则和脚本。所以，AI agent可以进行规则不明确的复杂任务，处理更多不确定和动态的操作。比如：智能对话系统、自动驾驶、推荐系统。

一个精简的Agent决策流程，用函数表达式：Agent：P（感知）—> P（规划）—>A（行动）

An image to describe post

类似人类“做事情”的过程，Agent的核心功能，可以归纳为三个步骤的循环：感知（Perception）、规划（Planning）和行动（Action）。

感知（Perception）是指Agent从环境中收集信息并从中提取相关知识的能力，规划（Planning）是指Agent为了某一目标而作出的决策过程，行动（Action）是指基于环境和规划做出的动作。

其中，Policy是Agent做出Action的核心决策，而行动又通过观察（Observation）成为进一步Perception的前提和基础，形成自主的闭环学习过程。

5

AI Agent相应实现感知、规划和行动，需要有不同的组成部分，每个部分都有其自身的功能。

传感器使代理能够感知周围环境以收集感知数据（来自世界的输入：图像、声音、射频等）。这些传感器可以是摄像头、麦克风或天线等。对于软件代理，传感器可以是网络搜索功能或读取PDF文件的工具。

执行器帮助代理在世界上采取行动。这些可以是车轮、机械臂或在计算机中创建文件的工具。

处理器、控制系统和决策机制构成了代理的“大脑”。我将这些归为一类，因为它们具有相似的功能，但在AI代理系统中可能并不全都存在。它们处理来自传感器的信息，思考最佳行动方案，并向执行器发出命令。

学习和知识库系统存储有助于AI代理完成任务的数据；例如，一个事实数据库或过去的感知数据、遇到的困难和找到的解决方案。

由于AI代理的形式在很大程度上取决于其执行的任务，你可能会发现一些AI代理具有所有这些组件，而另一些则没有。一辆自动驾驶汽车则拥有上述所有组件：它需要传感器来“看到”道路，需要执行器来移动，需要决策系统来变道，并且需要学习系统来记住如何导航城市中具有挑战性的部分。

简而言之，人工智能代理使用其传感器收集数据，控制系统通过假设和解决方案进行思考，执行器在现实世界中执行行动，以及学习系统来跟踪=其进度并从错误中学习。

在AI时代，多模态的大模型=传感器，可以解决感知和识别的问题。GPT-4o 的最大亮点在于突破了单一模态的局限，实现了跨模态的综合理解和生成能力，还能在生成时融会贯通，产生与上下文高度贴合、更加人性化的响应。不仅如此，大模型还需有用任务规划能力、记忆功能与工具使用能力

最直观的公式：AI agent=多模态LLM+记忆（Memory）+任务规划（Planning Skills）+工具使用（Tool Use）+Feedback

An image to describe post

如果AI agent能够实现，那么，其一般流程：

当你输入目标时，AI代理会通过目标初始化。它将您的提示传递给核心LLM（如GPT），并返回其内部独白的第一个输出，显示它明白它需要做什么。
创建一个任务列表。根据目标，它会生成一组任务，并了解它应该按照什么顺序完成它们。一旦它决定有一个可行的计划，它就会开始搜索信息
它可以从互联网上收集信息。比如连接到其他人工智能模型或代理来外包任务和决策，让他们访问图像生成、地理数据处理或计算机视觉功能。
所有数据都存储在并由代理在其学习/知识库系统中进行管理，因此它可以将其中继回给您并在前进时改进其策略。
当任务从列表中划掉时，代理通过收集来自外部来源和内部独白的反馈来评估它离目标还有多远。
在达到目标之前，代理将不断迭代，创建更多任务，收集更多信息和反馈，并毫无停顿地前进。

6

由于LLM的限制，目前实现AI Agent还有一段路程。但一些产品正在从特定场景的特定问题出发，进行尝试。比如：coze

Coze是由字节跳动推出的一款AI聊天机器人开发平台。它提供了强大的Agent构建能力，允许用户创建和协调多个智能体（Agent）以完成复杂的任务。

之前，吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察，提出了目前有 4 种主要的 Agent 设计模式，分别是：

Reflection：让 Agent 审视和修正自己生成的输出；
Tool Use：LLM 生成代码、调用 API 等进行实际操作；
Planning：让 Agent 分解复杂任务并按计划执行；
Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；

而Coze则通过工作流、知识库和插件的模式便可以实现上面的Agent 设计模式。Coze里各种插件和知识库可以看作是Tool Use与Memory，而工作流则相当于把复杂任务并按计划执行。另外，Coze 的定时任务功能为机器人赋予了主动发送消息的能力，让用户在无需主动查询的情况下，也能享受到个性化的服务。

所以，Coze是现阶段实现AI Agent的路径上做着努力，就像其对工作流去实现Agent 设计模式的评价那样：效果有限，受限大模型训练内容。结果的上限较高，但不确定性强，需要精调Prompt。

这仿佛就是做好了所有基础建设，就等大模型迎来更大突破。

7

钉钉 AI 助理是另一个。

前面Excel 宏讲到录制操作的方式实现一定自动化流程。参考这样的逻辑，钉钉上新了一个“拟人操作”功能。让 AI 在背后学习你的一步步操作，拟人化地“看”用户真实操作，一遍就学会。

钉钉官方给了这么一个例子：飞猪旅行预订机票，当你向 AI 助理提出预订机票请求时，它能够识别出你希望查出发地、目的地和出发时间。接着，AI 助理将执行你预设的拟人操作（RPA）脚本，模仿用户浏览飞猪旅行站点，执行机票预订流程。最后，AI 助理会完成机票选择，最终到订单确认页面返回给提问者继续操作。

这两天，我已经在抖音上看到有人使用支付宝里的AI来购买星巴克咖啡了。

8

另外，想让AI Agent得到更多的应用，场景是非常重要的。

现在很多Agent得不到很好的应用，很大的原因在于给予大模型AI chat上，场景与解决方案分离了。现在，coze等尝试通过发布到其他平台，结合其他平台使用，确实是不错的想法。这让AI Agent寻找到合适的场景来解决用户的实际问题。去美团或者微信服务号让AI点星巴克，比起支付宝更符合用户逻辑。

9

最近，吴恩达老师写了一个翻译Agent的程序，以及腾讯多智能体翻译工具上线，让多智能体的能力得到了更多人的认可。但有人发现，一个Prompt也可以实现这样的翻译需求。
An image to describe post

博主宝玉便分享了其测试一个Prompt和多个智能体进行翻译的例子。两者的差异很明显，一个 Prompt 多个步骤，可以最大化的节约 Token，充分利用 LLM 输出的内容作为上下文，不需要多次输入输出，节省了时间和资源。而多个智能体，可以让每一个智能体专注于完成一件任务，Prompt 写起来容易。

这其实有点类似于工作的分工，工作能力强，一个人可以做多个任务，但要整体效率提升的话，可能需要让多个人单独做某个任务，以避免出错，并且对员工的要求也不高。

所以，吴恩达教授认为Agent能够提高大语言模型的能力。

另外，多智能体翻译虽然是一个很棒的Agent的例子，但我们所希望的Agent是要解决的的是多项的，更复杂的任务。Agent在达到目标之前，将不断迭代，创建更多任务，收集更多信息和反馈，并毫无停顿地前进。

10

最近，我通过claude3.5想让他帮我优化一些碎片化的思考，然后分享到微博。它可以给到一个让我满意的prompt，但我发现这些优化后的文案，并不符合我的性格，所以我将我备份的动态内容，让他学习，总结出我的风格。然后用这种风格来写微博。它一样满足了。

但它把之前的prompt给忘了，然后我提醒它，把我的风格的内容，加入到之前的prompt里，这才达到我的预期。

如果它可以自己把新的风格要求加进去prompt该多棒呀！

参考链接：

https://www.lanrenexcel.com/excel-macro-basics/
飞书AI x 多维表格：未来办公的生产力
 一文看懂RPA与Excel宏的区别-来也科技
 AI Agent & 大模型经典论文推荐 | Bojie Li
A Supervisory AI Agent Approach to Responsible Use of GenAI in the Legal Profession - CodeX - Stanford Law School
AI Agent 落地现状：成功率太低，即使用 GPT-4 也不到 15%
一文读懂：AI Agent究竟是什么？-虎嗅网
 了解 AI 智能体：技术路线、市场解决方案及建议 - 歸藏的AI资讯
 What are AI agents? A comprehensive guide | Zapier
https://x.com/GPTDAOCN/status/1676259417686413312
LLM Powered Autonomous Agents | Lil'Log
Coze的AI Agent构建能力
 用扣子/Coze 揭秘吴恩达的4种 AI Agent 设计模式
 什么时候该用多智能体是不是一定要用多智能体？ | 宝玉的分享

关于Agent的一些思考

1

2

3

4

5

6

7

8

9

10

参考链接：

大语言模型的认知革命：从快思考到慢思考，探索AGI之路

关于AI搜索的一些思考

深度体验数百款AI产品，最终我只留下了这几个