封面提示词:A zoomed out shot, epic wide shot of a astronauts floating in outer space surrounded by a geomagnetic solar storm. Background is dark empty space with bright stars. The solar storm is vibrant with clouds and many colors. The astronauts are highly detailed and much smaller than the storm. --chaos 30 --ar 16:9 --quality 4 --raw --profile zz66jf7 --stylize 950

上周精选✦

谷歌 I/O 大会内容

上周最大的发布就是谷歌的 I/O 大会了,这次谷歌是真的猛从模型到产品全访问开花,可以说从这次来看谷歌的 AI 能力真的走上正轨了,来看一下发布内容。

谷歌还发布专为移动端训练的多模态语言模型 Gemma 3n,5B 的模型居然还能理解视频,内存占用仅相当于2B模型。

在移动设备上的响应速度提升约 1.5 倍,通过逐层嵌入、键值缓存共享等技术降低内存占用,能够理解和处理音频、文本及图像,甚至是视频,将会内置在Android 和 Chrome 里面,直接在浏览器中的 Google AI Studio 上试用。
An image to describe post

Anthropic 发布 Claude 4

Anthropic 也憋不住发布了 Claude Opus 4 和 Sonnet 4,这几天整体测试下来,这两个模型整体的能力提升配不上这么大的版本号跨度,尤其是是 Sonnet 4相较于 3.7 是在倒退的,一些其他测试也证明了这一点

我自己的猜测是他们把 Claude 4 的 Sonnet 叫成了 Opus 4 省的外面的人老是问 Opus 在哪,Sonnet 4 则是蒸馏的一个更小的模型,得益于真正的 Opus 4 的能力提升,所以这个比原来 Sonnet 3.7 更小的 Sonnet 可以获得跟 Sonnet 差不多的能力。

Claude Opus 4:被誉为全球最强的编程模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)等权威基准测试中领先。它能持续数小时高强度工作,适合复杂、长周期的任务和 AI 代理场景,远超以往 Sonnet 系列。

Claude Sonnet 4:在 Sonnet 3.7 的基础上大幅升级,SWE-bench 得分达 72.7%,在性能与效率之间取得平衡,适合日常和企业级应用。

主要新功能:

  • 工具使用与并行执行:两款模型均支持“扩展思考”模式,可在推理过程中调用工具(如网页搜索),并能并行使用多种工具,提升复杂任务的处理能力。
  • 本地文件访问与记忆增强:开发者可授权模型访问本地文件,Claude 4 能自动提取、保存关键信息,形成“记忆文件”,显著提升长任务的连贯性和上下文保持能力。
  • 行为优化:模型在避免“走捷径”或利用漏洞完成任务方面,比 Sonnet 3.7 降低了 65%,更可靠、更安全。
  • 思考摘要:引入小模型对长推理过程进行摘要,便于用户理解和追踪 AI 的思考链路。

其中Opus 4 价格为 $15/$75(百万 tokens,输入/输出),Sonnet 4 为 $3/$15,跟上一代的定价相同。

另外Claude Code 现已全面开放,支持 VS Code、JetBrains 等主流 IDE,支持 GitHub Actions 后台任务、原生 SDK,开发者可基于 Claude Code 构建自定义 AI 代理和应用。
An image to describe post