封面提示词(Nano Banana Pro):流畅极少军绿白色渐变小笔刷发光在变换、一种向上生长的感觉,空间感,光线追踪,浩渺感,孤独感,全景视角,透白渐变背景,流光溢彩,C4d建模
上周精选✦
Anthropic 发布 Claude Opus 4.5
Anthropic 急了,目前他们主要的成绩都在代码上了,肯定不能让 Gemini Pro 打爆,发布了 Opus 4.5 Token 编码确实牛皮,推理效率大幅提高,加上降价在编码上的总价格跟 Sonnet 差不多了。
但是我的体感这个模型偏科严重,输出的结果更像 GPT-5 了舍不得跟你多说一个字,通用任务上几乎是倒退的,只能用来编码。
SWE-bench Verified Opus 4.5 拿了第一。Anthropic 内部还做了个有意思的测试:他们让 Opus 4.5 做性能工程师的入职考试(2小时限时),结果模型的分数超过了所有人类候选人。
不只是编程,Opus 4.5 在数学、视觉、推理等各个维度都有提升。在多语言编程 benchmark(SWE-bench Multilingual)上,8 种编程语言里它拿了 7 个第一。
Opus 4.5 引入了一个新参数叫 effort(努力程度),你可以根据任务选择不同的思考深度。
在 medium effort 模式下,Opus 4.5 达到了 Sonnet 4.5 的最佳分数,但只用了 24% 的输出 tokens。换句话说,少用了 76% 的 tokens。
即使在 highest effort 模式下,Opus 4.5 的表现超过 Sonnet 4.5 有 4.3 个百分点,同时还少用了 48% 的 tokens。
这说明模型变聪明了:更少的回溯、更少的冗余探索、更精准的推理。对于长期运行的 Agent 任务,这个效率提升会直接转化为成本节省。
还有很多产品层面的更新:
- Claude Code 现在有了 Plan Mode(计划模式)。它会先问清楚需求,生成一个可编辑的 plan .md 文件,你确认后再执行。这样可以避免方向跑偏。
- Claude Code 还进入了桌面 app,你可以同时跑多个本地和远程 session:一个 agent 修 bug,另一个研究 GitHub,第三个更新文档。
- Claude for Chrome 现在对所有 Max 用户开放了,可以让 Claude 跨浏览器标签页处理任务。
- Claude for Excel 从今天开始向所有 Max、Team 和 Enterprise 用户开放 beta 访问。
- 对于 Claude app 用户,长对话不再碰壁了——Claude 会自动总结早期上下文,让对话可以一直继续。
- 对于可以使用 Opus 4.5 的用户,Anthropic 移除了 Opus 特定的使用上限。对于 Max 和 Team Premium 用户,整体使用限额提高了,大约等于之前 Sonnet 的 token 量。
