封面提示词:Advertising photography, fresh and bright tones, soft natural light, many butterflies with a metallic luster resting on lush green grass, a gentle breeze blowing through the grass creating waves, medium shot, high detail, professional grade, cinematic feel. --ar 16:9
上周花在 Codepilot 里的时间确实不少,感觉已经把这个当成了我的 Vibe coding 和 Agent Engineering 的实验田。
上周主要完成了以下工作:添加了 Claude 新出的生成式 UI 功能,包括集成了飞书龙虾官方插件的部分功能;为 Code Pilot 添加了 Git 的所有能力;完成了一次前端的一致性治理;添加了主题切换的能力。
尤其是生成 UI 这个能力,基本上 Claude 发布了一天多,就已经在 Code Pilot 上线了。然后,我也写了一下大概的实现方案和路径。
一周发布了 8 个版本,平均每天一个版本;完成了 73 次 commit,最多同时跑了 3 个 worktree。感觉自己的 Agent 控制能力又提升了不少。
产品的成绩也不错,现在 GitHub 的 Star 快来到 4,000 了。近两周 GitHub 项目的访问量是 52000 次,下载量也在稳步提升。

上周精选✦
Google 发布了 Gemini Embedding 2 和一堆产品更新
谷歌真是 Al in 多模态了,别人都搞编程和 Agent 就他库库继续搞多模态,发布了 原生多模态 的 embedding 模型 Gemini Embedding 2。
可以把不同模态统一到一个向量空间里,支持模态:文本、图片、视频(120 秒内)、音频、PDF 文档(6 页内),支持多语言:100+ 语言,多语言语义检索。
还能支持多模态混合输入:一次请求里可以传「图+文」、「音频+文」等,模型直接理解它们的组合语义。
默认 3072 维,可用 Matryoshka 降到 1536 / 768 等,平衡质量 vs 存储/算力。
谷歌演示了多模态语义搜索的 Demo,比如用一张图片去搜相似视频、用一段音频表情去搜未转写的视频片段。
另外谷歌也发布了一堆针对他们 WorkSpace 的 AI 能力升级,优先给美国地区的应用用户开通:
在 Docs 里,它可以根据你选择的文件、邮件和网页内容,一句话起草完整初稿、统一语气和格式、按照参考文档模板自动填充旅行行程等;
在 Sheets 中,你只需用自然语言描述需求,Gemini 就能自动搭好项目表格、仪表盘,还能通过 “Fill with Gemini” 自动从现有表格和 Google 搜索补齐缺失信息,比如院校申请的截止日期和学费;
在 Slides 里,它扮演设计合作者,从草图或提示生成与整体主题一致、可完全编辑的单页或整套幻灯片,并按你的指令微调配色和风格;
在 Drive 中,Gemini 把云端硬盘从“文件柜”变成“主动助手”,通过搜索里的 AI 概览和 “Ask Gemini in Drive”,直接在文件、邮件、日历和网页之间综合信息,帮你用自然语言快速找到资料、提炼重点、比较方案并给出基于你真实数据的建议
一方面推出名为 Ask Maps 的对话式体验,你可以直接用自然语言询问复杂、真实世界的问题,系统会结合 3 亿多个地点和 5 亿多贡献者的最新评价,为你生成带路线、ETA 和“本地人小贴士”的推荐。并根据你平时搜索、收藏和饮食偏好进行个性化,还能一键订位、导航、分享地点;
另一方面,Maps 推出十多年来最大的一次导航升级——“沉浸式导航”,通过 Street View 和航拍图像配合 Gemini 生成更贴近真实世界的 3D 导航视图,突出车道、斑马线、红绿灯、立交和地形,并用更自然的语音和智能缩放帮助你提前看清复杂路口和变道,同时实时评估路况、施工和事故,为不同备选路线展示“更快但有收费”“更慢但更顺畅”等取舍,并在出发前到到达的全过程中提供街景预览、停车建议、建筑入口位置和靠哪一侧车道更方便等细节。

其他动态 ✦
- Replit 发布 Agent 4 围绕“让人专注创意、不再当项目协调员”的核心思路升级:它把设计、开发和发布统一到同一个环境中,让你可以在无限画布里快速生成和对比多个 UI 方案并直接落到生产代码,一边设计一边让 Agent 在后台构建应用。
- Meta 收购 AI Agent 社交网络 Moltbook:Moltbook 是一个类似 Reddit 的“社交网络”,上面的账号都是通过 OpenClaw 接入,很离谱,不知道小扎在想什么。
- 在 Meta 被小扎开除之后的杨立坤(Yann LeCun)创办了一个新的公司 AMI Labs。拿到了现在应该是最多钱的种子轮,共计 10.3 亿美元。他看不上大语言模型这一套,所以他的目标是创建一个能够真正理解现实世界、能够长期记忆并进行规划的智能系统。
- Anthropic 发布 Code Review ,面向团队/企业的多代理自动代码审查功能:当 PR 打开时,它会派出一组 Agent 并行扫描改动、验证每个可疑点并按严重程度排序,最后给出一条高信号总结评论加若干行内标注。
- 三月剩余时间 Claude 所有订阅会员在工作日非高峰时段和周末的额度都会翻倍,同时 100 万上下文的 Opus 和 Sonnet 成为 Claude Code 默认模型。
- Claude Code 更新 /btw 命令,对当前工作快速提问,而不将问题添加到对话历史中。当你想要快速获得答案但又不想使主上下文变得杂乱或打断 Claude 的长期任务时,这非常有用。
- OpenAI 在 ChatGPT 中上线的一组全新「交互式视觉讲解」功能,专门帮助用户学习 70 多个核心数学和科学概念,当用户提问这类知识点时,ChatGPT 不再只是文字解答,而是通过动态图表和可操作的变量滑块,让学习者自己拖动和实验,直观看到公式中各个变量变化如何影响结果,从而加深对概念本质和变量关系的理解。
- 彭博社报道,Mira Murati)创立的 Thinking Machines Labs 与英伟达签署了一项多年协议,后者将为其提供至少 1 吉瓦的计算能力。
- 智谱推出 GLM-5-Turbo:GLM-5 的高速变体,特别适用于如 OpenClaw 之类以 Agent 为主的环境。
- Replit 完成新一轮 4 亿美元融资,投资方包括 Georgian、G Squared、Prysm、1789、YC、Coatue、a16z、Craft 和 QIA。
产品推荐 ✦
Perplexity Personal Computer:类似小龙虾的桌面助理
小龙虾套壳的风波终于是卷到了国外,Perplexity 出了一个 Personal Computer,马斯克也说要做类似的东西,在你的电脑里有一个长期稳定的助手,一个可以操作软件和文件的客户端。
跟一个配置好的 Open Claw 能做的事情差不多。但比较好的是,它的交互非常舒服:
- 你可以直接语音输入
- 它收到以后直接语音回复,不打扰
它是常驻在右上角的,这种设计就很舒服。而且安全性、稳定性各方面都表现得比较好。你还可以通过他们的 Perplexity 移动 APP 远程控制桌面端的 Personal Computer。需要候补名单,感觉也是刚立个项,可能也就做了个 demo 出来。

**Autoresearch:**Karpathy 推出的 AI 自助科研框架
Karpathy 推出的一个“自助科研”框架:给一个 AI 代理一套精简但真实的 LLM 训练代码(基于 nanochat 的单 GPU 训练),让它只自动修改 train.py 这一份模型与训练循环文件,在固定 5 分钟训练预算下反复试验、评估 val_bpb 指标并保留更优改动,而人类研究者只需要通过编辑 program.md 这份“研究组织说明书”来设定代理的角色与目标,不再直接改 Python 代码;整体项目强调单 GPU、自包含、统一时间预算,使得同一台机器上不同架构与超参组合的实验可以自动批量搜索,同时 README 还给出了在小算力设备上调整数据集、词表大小、序列长度、模型深度和 batch 等超参的建议,并列出一些面向 Mac/Windows 的社区分叉版本。
Ramp:给 Agent 用的信用卡
Ramp 的 Agent Card 是一张专为 AI Agent 设计的可编程企业信用卡,企业先在 Ramp 开通账户并获批,然后可以为 Agent 单独签发带有自定义额度、商户分类限制和审批策略的虚拟卡,Agent 通过 Ramp 的 API 或 CLI 创建卡片、发起支付并自动报销,而所有交易都会像人类员工的消费一样出现在 Ramp 后台,附带完整审计记录、发票收据和分类信息;通过这种方式,企业既能让 Agent 负责订阅、采购和供应商付款等操作,又能通过精细化的额度控制、商户锁定和实时提醒来保障风控与可见性,同时享受 Ramp 原有的成本节省与返现优势。

OpenUI:让 AI Agent 流式传输 UI
OpenUI 是一个开源的「生成式 UI 标准和工具链」,它让 LLM 不再直接吐 JSON 或 HTML,而是根据你用 defineComponent 和 createLibrary 定义好的组件库(比如 Carousel / Card)来生成一种叫 OpenUI Lang 的结构化描述,然后由 Renderer 解析并渲染真实 UI,所以同样一句自然语言请求(如“我需要一间巴黎现代风格的酒店”),模型会产出你的组件树(含卡片文案、标签、筛选信息等),同时具备更高的渲染性能、更低的 token 消耗、原生类型安全、流式与交互支持,并且兼容任意 UI 库(ShadCN、Material、自研 design system)、任意主流 LLM 和框架(Vercel AI SDK、LangChain、各家 Agents SDK 等),目标是在 Web、移动端等多平台上用统一协议快速搭出高性能、安全的生成式界面。
前面我复刻的那个 Claude 生成式 UI 框架,也开发成 MCP 了。可惜的是,很多 Agent 都不支持,所以能用的地方有限。

Junior:AI 员工,有自己的邮箱、Notion、github 等
看起来也是从 Openclaw 衍生出来的。“任何岗位的 AI 员工”:你给它单独的邮箱、Slack 身份和名字,把 Slack、Gmail、Notion、GitHub、HubSpot 等真实工作工具接上,它在一天内读完公司文档、Slack 历史、会议记录和代码,形成深度“组织记忆”,然后像一个主动型同事一样 24/7 监控业务、提前发现问题(比如转化率异常)、自动发邮件、写文档、开 JIRA 工单、跟进任务、参会做实时会议纪要并抽取 action items;它能记住几个月前在不同频道、文档、会议里做过的决策,把上下文串起来参与当下决策,从而把“搜集上下文、重复沟通和机械执行”这类工作大幅外包给 AI,主打“上岗即熟悉业务、持续主动产出、极少管理成本”。

其他值得关注的工具
- **gists.sh** :将 GitHub Gist 变成「更好看阅读页」的开源小工具:你只需把任意 Gist 链接里的
gist.github.com换成 gists.sh,就能得到一个干净、极简、支持暗/亮色、可隐藏头部和页脚、全等宽字体展示的页面。 - exe.dev:提供的是一种“给每个想法一台持久云电脑”的服务:你获得的是标准 Linux VM(支持 sudo、任意语言和数据库、持久磁盘),而不是需要适配的平台;每台 VM 默认私有并自动挂在 HTTPS 和 IAM 后面,你只需开发,TLS 证书、DNS 和反向代理都由平台代管,然后通过链接分享给他人使用。
- Firecrawl CLI:集网页抓取、搜索、站点地图/全站爬取、云浏览器自动化和智能 Agent 研究于一体的统一命令行工具。
- Parallel CLI :为终端智能体优化的命令行工具,一行命令即可完成自然语言语义搜索、网页内容抽取、多源深度研究和结构化数据批量富化,统一支持
--json、--no-wait等非交互特性,方便与 Agent Skills 组合成可自动编排的全套 Web intelligence 基础设施。 - Notchi:专为带刘海的 macOS 15+ MacBook 设计的菜单栏「刘海小助手」,通过在启动时为 Claude Code 自动安装 shell hook,实时监听 Claude Code 的思考、编写、报错、完成等事件,并将这些事件通过 Unix Socket 传给应用的事件解析与状态机,再驱动不同情绪和动作的像素小人动画。
精选内容 ✦
服务:新一代软件
红杉资本投资人的文章,他认为在AI能力迅速提升的时代,单纯卖「工具」的软件公司会不断被模型迭代压缩为一个功能,而真正有机会成为万亿级公司的,是那些「伪装成服务公司」的软件——直接对客户卖“工作结果”(autopilot),而不是卖工具(copilot);因为在许多高智力、低判断的服务领域(如会计、保险经纪、医疗收费、IT 托管、税务、标准法律文本等),大部分工作其实是可规则化的“智能劳动”,企业本来就外包给服务商,有清晰预算和标准化产出,这给了 AI-native 服务公司一个理想切入口:先从这些已经外包、规则明确的任务做“自动驾驶服务”,用模型完成大部分智能工作、人类补判断,随着在垂直领域持续积累数据和案例,AI 对“好判断”的理解会逐渐内化为新的智能边界,copilot 和 autopilot 最终会在多行业收敛,而先从 autopilot 起步、吃到“劳动支出”这块更大的盘子并持续复利数据的公司,将可能成长为下一代的超级巨头。
停止将聊天记录用作 Agent 的状态存储
批评了把扁平的聊天历史 {role: "user"}, {role: "assistant"}] 当成代理的“后端”和状态机这一常见做法,指出这样会导致应用真实结构化状态(用户、购物车、流程位置、数据库数据)与 LLM 看到的消息数组不断漂移,难以调试和恢复,也无法可靠处理失败与重试。作者强调,聊天协议只是序列化格式,不是计算架构;真正需要的是类似 Temporal 的“持久化执行”工作流引擎,让 LLM 专注于语义决策(路由、抽取、下一步动作),而由确定性的执行引擎负责控制流、重试和状态管理。与此同时,他将工具调用拆分为读取调用、写入调用和混合调用三类,指出用聊天消息承载工具调用会掩盖这些差异,破坏缓存、审计和补偿事务等关键能力;正确的做法是为不同类别的工具调用建立明确的类型和事件日志,把它们持久化到服务器端数据库中,在此基础上构建以 LLM 为非确定性节点的状态机或 DAG,而不是把聊天记录当数据库用。
我使用 Claude Code 构建了一门编程语言
作者用 Claude Code 在四周内几乎完全“放手”构建了一门动态语言 Cutlet 的过程与反思:他并不亲自写代码,而是通过精心设计的 guardrails(详细规格文档、计划文件、全面测试和静态/内存分析、调试脚本、Docker+sudo 的高权限环境等)来确保代理能自主高质量迭代,从选题开始就刻意挑选“LLM 形状”的问题(小型动态语言实现,易自动验证、训练数据丰富),并总结出四项关键代理工程能力:识别适合 LLM 的问题、用文字精确传达意图并写出规范、为代理打造合适的工具与运行环境、以及持续观察并优化 agent 的工作闭环(把重复命令固化成脚本、减少无效运行等)。在此过程中,他意识到:优秀的软件工程仍然高度依赖人类的领域知识与设计判断,LLM 只是放大器,而非替代品;同时,这种“随时能多打一把 slot 机”的高效开发模式对心理健康有明显成瘾和透支风险,需要人为设限。关于署名与归属,他对“Cutlet 到底是谁写的”保持道德上的犹疑,认为自己更多是在“饲养”和编排一个建立在无数前人开源成果上的模型,因而甚至没有给项目加许可证。文章最后,他相信到 2030 年编程形态会被代理深刻改变,但软件工程不会消失,只是角色会从写代码转向规划问题、设计系统与运营智能代理,而 Cutlet 只是这一转变中的一个实验性样本。
开发者至舰队指挥官
文章通过类比《安德的游戏》提出“开发者到舰队指挥官”的新范式:在 AI 编码工具(如 Claude Code、Cursor、Codex)大幅提升生产力的时代,少数愿意深入掌握这些工具的顶尖构建者,已经能同时指挥一整支由多智能体组成的“代码舰队”,以设定意图、审查输出、不断迭代的方式在极短时间内完成过去需要多人团队数周才能做出的完整产品,而他们关注的不再是每一行代码本身,而是用审美和判断力决定构建什么、如何拆解和并行化任务,把不同代理分别投入重构、测试、UI 等工作中,通过“授权 + 信任 + 想象力”的组合在不确定性中做出大胆决策,真正拉开与只坚持传统手工写代码、拒绝更新心智模型的普通开发者之间的巨大差距,作者因此认为 AI 编码环境已经不再是“模拟器”或玩具,而是实打实的生产接口,关键问题不再是你写代码有多熟练,而是:你能成为怎样的“舰队指挥官”。
a16z:前 100 强生成式 AI 消费级应用——第 6 版
a16z 第六版《Top 100 Gen AI 消费级应用》榜单,指出生成式 AI 从“独立 AI app”演变为深度嵌入 CapCut、Canva、Notion 等主流工具的基础能力,ChatGPT 仍然在用户规模、订阅和使用频次上远超 Gemini、Claude,但“默认 AI”之战已经从模型层扩展到生态层:通过应用商店、插件/Connector、身份层和交易能力形成锁定;地理上则形成以欧美、大中华、俄罗斯为三极的割裂格局,DeepSeek 是少数跨区产品之一;创意工具方面,图片生成被平台内置挤压,视频(如 Veo 3、Kling)、音乐(Suno)、声音(ElevenLabs)成为增量热点;Agent 从垂直的 vibe coding(Lovable、Cursor、Claude Code 等)扩展到横向 Agent(OpenClaw、Manus、Genspark),OpenClaw 的爆发展示了“AI 会替你执行任务”的范式转折;同时 AI 正在从“一个网站或 App”变成浏览器、桌面工具和 Office / Workspace 里的系统级能力(Atlas、Comet、Claude in Chrome、Claude Code、Codex、Notion AI 等),导致仅靠 Web 访问和移动 MAU 的统计越来越低估真实 AI 使用度,也预示未来更像 iOS/Android 那样的多平台生态竞争,而不是单一搜索入口一家独大。
文件系统正迎来属于它的高光时刻
作者从自己做向量数据库的经历出发,指出当前主流的 AI 代理(尤其是本地运行的编码代理,如 Claude Code)之所以强大,不在于云端容器和超大上下文,而在于能直接读写用户文件系统,把长期记忆和项目语境写进文件里(如 CLAUDE.md、aboutme.md、SKILL.md),让文件格式本身成为跨应用的开放 API;但 ETH 苏黎世的研究表明,冗长、充满“任务 checklist”的上下文文件反而会降低成功率、增加成本,因此好的上下文文件应只保留最小必要约束;目前围绕各种 *.md 规范(CLAUDE.md / AGENTS.md / .cursorrules / SKILL.md)的分裂与部分收敛,体现了一种“接口用文件系统、底层仍是数据库”的新架构:文件系统提供对人类和代理都通用的交互界面,数据库在后端承担索引、并发和语义搜索等能力,而真正重要的,是让用户的偏好、项目语境和技能以开放的文件形式存在,能在不同代理和应用之间自由流动,重新接近“个人计算”最初那种数据归属与工具可替换的理想。
利用 Skills 加速开源软件(OSS)维护
介绍 OpenAI 如何在其 Python 和 TypeScript 的 Agents SDK 开源仓库中,通过将「技能」和仓库内的 AGENTS.md 规范结合起来,把验证代码、文档同步、示例自动运行、集成测试、版本发布检查和 PR 总结等日常维护工作流程,拆分成一系列带有清晰触发条件和输出的技能包,并通过脚本负责固定的命令执行、由模型负责理解代码意图和判断风险,再配合 Codex GitHub Action 在 CI 中自动运行这些技能,从而在保持兼容性和质量的前提下,显著提升 PR 处理效率和发布节奏,同时也给其他开源维护者提供了一套可借鉴的模式:把工作流写进仓库、用描述字段优化路由、用技能+脚本分离「判断」与「机械操作」,并把这套流程扩展到自动集成测试、发布审查和 Codex PR 自动评审中。
为数万亿智能体构建架构
由于智能体(agents)能力在过去几个月里突飞猛进,从最初只会调用简单工具的聊天机器人,演化成拥有独立沙盒环境、能写跑代码、调用 API/CLI、管理文件系统和长期记忆的“数字员工”,它们将渗透到几乎所有知识工作场景。
规模甚至会达到“一个公司里有比员工多 100–1000 倍的智能体”,从而使“软件的主要用户从人变成智能体本身”。
在这种背景下,软件创业范式要从“make something people want”转向“make something agents want”,所有产品都必须 API-first、支持 CLI/MCP 等机器可用接口乃至通过 API 完成注册、计费和自助支付。
同时围绕智能体将诞生全新的基础设施和工具层,包括:
- 为智能体提供廉价且大规模的算力沙盒(如 E2B、Daytona、Modal、Cloudflare)
- 面向智能体的企业文件系统和数据接入层(如 Box)
- 搜索与信息抓取服务(Parallel、Exa)
- 身份与通信系统(例如 Agentmail 为智能体提供邮箱)
- 钱包与微支付能力
- 围绕安全、合规、治理和访问控制的一整套新架构
因为未来企业必须像治理人类员工那样,甚至更严格地治理这些长时间运行、具备独立身份和权限的智能体,从而 usher in 一个“为万亿级智能体而设计的软件新时代”。
我想学习如何使用 Claude Skills(全套课程)
文章把 Skills 放在 Projects 和 MCP 之间重新定位成“可复用 SOP”:Projects 管知识、MCP 管数据连接,而 Skills 是持久化、可自动触发的任务说明书,核心就是在本地创建一个含 SKILL.md 的技能文件夹,通过 YAML frontmatter 精准定义触发条件和负边界,再在正文里用清晰步骤、输入输出规范和大量示例,把一次性对话提示固化为“训练好的员工”;随后文章从架构层面扩展到 scripts 目录(用脚本负责精确计算,说明书负责判断)、多技能编排(用领域划分和激进的负边界避免抢活)、引用文件设计(references 只一层、按需求条件加载),再讲测试与迭代:用预设失败模式(不触发、乱触发、漂移、脆弱、越界)和 Evals/Benchmarks/A/B 比较去系统性调优,最后落在生产部署与多轮任务上的“接班交接”模式——通过 context-log 在每次会话开头读、结尾写,把长期项目进度外化为文件,从而让 Claude 像长期接手的员工而不是一次性聊天框去执行你频繁重复的那些任务。
AI 应该帮助我们编写更好的代码
文章认为使用 AI 编码代理并不必然导致代码质量下降,相反如果善用它们,可以显著减少技术债并提升整体工程质量:许多常见的技术债(如 API 设计调整、命名统一、模块拆分、去重与重构)本质上是概念简单但费时的改动,而异步运行的编码代理(如 Gemini、OpenAI、Claude 等)非常适合在后台大量完成这类重复性重构,再通过 PR 审查决定保留与否;在此基础上,LLM 还能通过提出常见“无聊技术”方案和快速搭建负载模拟、原型实验,帮助我们在选型阶段探索更多备选路径,避免一开始就做出会积累巨大技术债的错误决策;最后,作者提出“复利工程”理念:每次使用代理完成项目后都进行复盘,把有效的指令和经验沉淀为下次调用代理的规范与模板,让代码质量和工程实践在持续、小步的改进中复利增长,从而在“快速交付新功能”和“持续提高代码质量”之间不再二选一。
重点研究 ✦
使用群体级自然语言反馈在强化学习中引导探索
大型语言模型 (LLMs) 通常通过与环境交互接收多样的自然语言(NL)反馈。然而,现有的强化学习(RL)算法仅依赖标量奖励,未能充分利用自然语言反馈中丰富的信息,导致探索效率低下。在本工作中,我们提出了 GOLF,一种明确利用群体级语言反馈通过可操作的改进来引导有针对性探索的 RL 框架。GOLF 聚合了两类互补的反馈来源:(i) 指出错误或提出有针对性修正的外部批评,以及 (ii) 提供替代性局部思路和多样失败模式的组内尝试。这些群体级反馈被聚合以生成高质量的改进,并在训练中作为离策略支架自适应地注入,以在稀疏奖励区域提供有针对性的指导。与此同时,GOLF 在统一的 RL 循环中联合优化生成与改进,形成一个良性循环,持续提升两种能力。 在可验证和不可验证的基准测试上的实验表明,GOLF 在性能和探索效率上都表现优越,与仅在标量奖励上训练的强化学习方法相比,在样本效率上提高了 2.2 倍。
Penguin-VL:探索基于 LLM 的视觉编码器在 VLM 中的效率极限
视觉语言模型(VLM)的发展在很大程度上依赖于扩大模型规模,这阻碍了在计算受限的移动和边缘设备(如智能手机和机器人)上的部署。在本工作中,我们探索紧凑型(例如 2B 和 8B)VLM 的性能极限。我们质疑现有做法——最先进的 VLM 必须依赖通过大规模对比预训练(例如 CLIP/SigLIP)初始化的视觉编码器。我们发现了目标不匹配问题:对比学习为了判别性而优化,强制施加粗略的、类别级的不变性,从而抑制了稠密描述和复杂 VLM 推理所需的细粒度视觉线索。为了解决该问题,我们提出了 Penguin-VL,其视觉编码器由仅文本的 LLM 初始化。我们的实验表明,Penguin-Encoder 是传统对比预训练的更佳替代方案,为多模态理解解锁了更高的视觉保真度和数据效率。 在各种图像和视频基准上,Penguin-VL 在数学推理方面的表现可与领先的视觉语言模型(例如 Qwen3-VL)相媲美,并且在文档理解、视觉知识和多视角视频理解等任务上超越了它们。值得注意的是,这些提升是通过轻量级架构实现的,表明改进的视觉表征而非模型扩展是性能提升的主要驱动力。我们的消融实验表明,Penguin-Encoder 始终优于对比预训练的编码器,能够保留对密集感知和复杂推理至关重要的细粒度空间和时间线索。这使其成为计算高效视觉语言模型的有力即插即用替代方案,并在资源受限的环境中实现高性能。
OpenClaw-RL:仅需对话即可训练任何智能体
每一次代理交互都会产生一个下一个状态信号,即每个动作之后的用户回复、工具输出、终端或 GUI 状态变化,但现有的任何具智能体特性的强化学习系统都没有将其作为实时的、在线的学习来源来利用。我们提出了 OpenClaw-RL,这是一个基于简单观察构建的框架:下一个状态信号是普遍存在的,策略可以同时从所有这些信号中学习。个人对话、终端执行、GUI 交互、软件工程任务和工具调用轨迹并不是彼此独立的训练问题。它们都是可以在同一循环中用于训练同一策略的交互。下一个状态信号编码了两类信息:评估信号,用于指示动作的表现好坏,并通过 PRM 判别器作为标量奖励提取;以及指示性信号,用于说明动作应当如何不同,并通过事后引导的在线策略蒸馏(Hindsight-Guided On-Policy Distillation,OPD)来恢复。我们从下一个状态中提取文本提示,构建增强的教师上下文,并提供比任何标量奖励都更丰富的逐标记方向性优势监督。 由于异步设计,模型可以同时对实时请求提供服务,PRM 对正在进行的交互进行评判,训练器同时更新策略,三者之间无需任何协调开销。应用于个性化代理时,OpenClaw-RL 使代理通过被使用即可改进,从用户的重新查询、更正和明确反馈中恢复会话信号。应用于通用代理时,相同的基础设施支持跨终端、GUI、软件工程和工具调用场景的可扩展强化学习,在这些场景中我们还展示了过程奖励的实用性。
迷失于故事:LLMs 在长篇故事生成中的一致性错误
当讲故事者忘记了自己的故事,会发生什么?大型语言模型(LLMs)现在可以生成长达数万字的叙事,但它们经常无法保持前后一致。在生成长篇叙事时,这些模型可能会与自己先前确立的事实、角色特征和世界规则发生矛盾。现有的故事生成基准主要关注情节质量和流畅性,导致一致性错误在很大程度上未被探索。为了解决这一空白,我们提出了 ConStory-Bench,一个旨在评估长篇故事生成中叙事一致性的基准。该基准包含跨四种任务场景的 2000 个提示,并定义了由 5 个错误类别和 19 个细化子类型组成的分类法。我们还开发了 ConStory-Checker,一套自动化流程,用于检测矛盾并将每个判定基于明确的文本证据。通过五个研究问题评估一系列 LLMs,我们发现一致性错误呈现出明显的倾向性:它们在事实和时间维度最为常见,倾向于出现在叙事的中段,出现在具有较高词元级熵的文本片段中,并且某些错误类型倾向于共现。 这些发现可以为未来改进长篇叙事生成的一致性提供参考。
你可以在这里找到我:
| 即刻 | 推特 | 微信公众号:歸藏的AI工具箱 |邮箱:[email protected] | 微信号:op7418
也可以分享给更多的朋友,让大家都有机会了解这些内容,扫描下面右侧二维码加我好友,我拉你进会员交流群,记得备注来源。

