058 - 我从 Claude 官方文章中学到了什么？

前段时间花了好几天把 Claude 的面向工程师文章系列 https://www.anthropic.com/engineering 阅读了一遍。现在把自己的理解整理下来，希望对大家有用，会以文章标题/链接，核心内容，我的理解三部分组成。发现如果都贴出来，会特别的长，由于篇幅问题，我把更多内容放在了自己的博客网站。感兴趣的可以移步看看。https://www.jwx.ink/issues/id/53

https://www.anthropic.com/engineering/claude-think-tool

“思考”工具：让克劳德在复杂工具使用场景中暂停思考

核心观点：

为 AI 提供一个思考工具，让 AI 能够在响应过程中停下来思考是否已经获取了足够的信息。
和 Extend thinking 区别在于，一个是“思考”之前的思考，一个是“思考”期间的思考。
适合在需要多工具，外部环境复杂的场景中解决问题场景中。

https://www.anthropic.com/engineering/building-effective-agents

构建高效智能体
核心观点：

为实际问题选择最佳的模式：智能体或者工作流，甚至简短的单次 LLM 调用。
工作流模式：
- 提示链：将任务分解为顺序步骤，用于可清晰分解的固定子任务
- 路由：根据输入分类导向专门化后续任务
- 并行化：同时处理独立子任务或获取多种观点
- 编排者-工作者：中央LLM动态分解任务并委托给工作LLM
- 评估者-优化器：一个LLM生成响应，另一个提供评估反馈循环
- 和 Agent 模式区别在于，对于 In，并不是 100% 将问题拆解为 3 个 LLM Call，简单的问题可能直接 In -> Out。

上下文和工具准确性和易用性十分重要

https://www.anthropic.com/engineering/contextual-retrieval

RAG != 上下文检索

核心观点：

传统 RAG 会导致上下文丢失，上下文检索就是为了解决 RAG 的缺点的。
补充上下文的方式，包括：
- 上下文嵌入
- Claude 自动生成上下文
缓存技术减低上下文检索过程中带来的token消耗。
检索之后重排序功能可以提升检索效果

https://www.anthropic.com/engineering/multi-agent-research-system

我们如何构建了我们的多智能体研究系统，单智能体 vs 多智能体

核心观点：

多智能体架构带来显著性能提升
Token 使用量是性能关键因素，多智能体之间需要信息隔离。
提示工程(Prompt Engineering)是核心，包括优化工具设计与选择、采用"先宽后窄"的搜索策略、利用扩展思考模式引导推理过程、并行调用工具提升 90% 的速度。

https://www.anthropic.com/engineering/writing-tools-for-agents

携手智能体，打造高效工具——专为智能体设计

文章主要介绍如何创建合理有效的工具，让智能体更加高效。在 https://www.anthropic.com/engineering/multi-agent-research-system 中也有部分内容和构建高效率智能体有关，我合并在一起讲。

核心观点：

工具开发需要评估驱动的迭代流程，采用"原型→评估→优化"的循环，Claude 优化的工具性能可超越人类专家编写的版本。
选择正确的工具比工具数量更重要
工具命名空间和返回内容设计至关重要
提示工程工具描述是最有效的改进方法
优化 Token 效率是性能关键

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

AI 智能体的高效上下文工程

上下文工程和提示工程

提示工程，包括编写 System Prompt，给出合适的 User Prompt。让 LLM 可以更为高效的完成任务。
上下文工程，要管理整个上下文状态（系统指令、工具、MCP、外部数据、消息历史等）的策略。
- System Prompt
- Tools
- Knowledge
- Message History
- MCP

核心观点：

高效的模型不要预设过多的信息，即不要干预它的自主决策，不要让它工作的像一个 Workflow
找到能够最大化实现模型预期结果的最少 Prompt 集合（包括 System Prompt & Tools 等等）。