AIGC Weekly #123 | AIGC Weekly

封面提示词：A zoomed out shot, epic wide shot of a astronauts floating in outer space surrounded by a geomagnetic solar storm. Background is dark empty space with bright stars. The solar storm is vibrant with clouds and many colors. The astronauts are highly detailed and much smaller than the storm. --chaos 30 --ar 16:9 --quality 4 --raw --profile zz66jf7 --stylize 950

上周精选✦

谷歌 I/O 大会内容

上周最大的发布就是谷歌的 I/O 大会了，这次谷歌是真的猛从模型到产品全访问开花，可以说从这次来看谷歌的 AI 能力真的走上正轨了，来看一下发布内容。

AI 模式即将面向美国所有用户推出。它对搜索功能进行了彻底的重构，拥有更先进的推理能力，可以提出更长、更复杂的查询。
Deep Think in 2.5 Pro，种新型增强推理模式，在回应前会探索多种假设。能够更有效地处理极其复杂的数学和编程问题。
Imagen 4图像模型发布，在精细细节上表现出卓越的清晰度，如复杂织物、水滴和动物毛发，同时在写实与抽象风格上皆游刃有余。支持多种宽高比及高达 2K 分辨率的图像生成，尤其适合印刷或演示场景。
Veo 3 视频模型发布，除了视频生成质量提升之外，现在可以连同音效和语音一起输出，更离谱的是默认是有唇形同步的它的理解能力极强，目前，Veo 3 已面向全球 71 个国家和地区的 Pro 和 Ultra 用户开放，你可以在 Gemini 应用或者 Flow 引用里面使用。
Flow：整合了所有谷歌模型的视频创作工具，只需用自然语言向 Flow 描述镜头，就能通过 Flow 将叙事编织成精美的视频。
Chrome 现在内置了 Gemini，可以点击图标直接进行文字和语音对话，这下其他AI浏览器难受了，首先向浏览器语言为英语的美国用户推出。
Gemini diffusion：使用扩散模型的LLM，Gemini diffusion 在编码方面表现尤为出色。模型能以每秒 2000 个 token 的速度生成代码。
Gemini APP 更新，iOS 和 Android 用户都可以使用 Gemini Live 读取相机和屏幕的功能，Canvas 和 Deep Research都进行了很多能力迭代，Agent 模式即将推出。
Google Meet 现在支持近乎实时的语音翻译功能。
推出 Google AI Ultra 一站式订阅所有谷歌 AI 服务，几乎囊括了谷歌所有的会员服务，不只是 AI，每个月 250 美元，前三个月打折 124 美元。
推出 Stitch 这个新产品能通过AI生成UI设计稿，而且还能将设计稿导出成 Figma 设计稿。
NotebookLM 发布视频概览，从包括 PDF、照片等来源创建简短的视频摘要。

谷歌还发布专为移动端训练的多模态语言模型 Gemma 3n，5B 的模型居然还能理解视频，内存占用仅相当于2B模型。

在移动设备上的响应速度提升约 1.5 倍，通过逐层嵌入、键值缓存共享等技术降低内存占用，能够理解和处理音频、文本及图像，甚至是视频，将会内置在Android 和 Chrome 里面，直接在浏览器中的 Google AI Studio 上试用。
An image to describe post

Anthropic 发布 Claude 4

Anthropic 也憋不住发布了 Claude Opus 4 和 Sonnet 4，这几天整体测试下来，这两个模型整体的能力提升配不上这么大的版本号跨度，尤其是是 Sonnet 4相较于 3.7 是在倒退的，一些其他测试也证明了这一点。

我自己的猜测是他们把 Claude 4 的 Sonnet 叫成了 Opus 4 省的外面的人老是问 Opus 在哪，Sonnet 4 则是蒸馏的一个更小的模型，得益于真正的 Opus 4 的能力提升，所以这个比原来 Sonnet 3.7 更小的 Sonnet 可以获得跟 Sonnet 差不多的能力。

Claude Opus 4：被誉为全球最强的编程模型，在 SWE-bench（72.5%）和 Terminal-bench（43.2%）等权威基准测试中领先。它能持续数小时高强度工作，适合复杂、长周期的任务和 AI 代理场景，远超以往 Sonnet 系列。

Claude Sonnet 4：在 Sonnet 3.7 的基础上大幅升级，SWE-bench 得分达 72.7%，在性能与效率之间取得平衡，适合日常和企业级应用。

主要新功能：

工具使用与并行执行：两款模型均支持“扩展思考”模式，可在推理过程中调用工具（如网页搜索），并能并行使用多种工具，提升复杂任务的处理能力。
本地文件访问与记忆增强：开发者可授权模型访问本地文件，Claude 4 能自动提取、保存关键信息，形成“记忆文件”，显著提升长任务的连贯性和上下文保持能力。
行为优化：模型在避免“走捷径”或利用漏洞完成任务方面，比 Sonnet 3.7 降低了 65%，更可靠、更安全。
思考摘要：引入小模型对长推理过程进行摘要，便于用户理解和追踪 AI 的思考链路。

其中Opus 4 价格为 $15/$75（百万 tokens，输入/输出），Sonnet 4 为 $3/$15，跟上一代的定价相同。

另外Claude Code 现已全面开放，支持 VS Code、JetBrains 等主流 IDE，支持 GitHub Actions 后台任务、原生 SDK，开发者可基于 Claude Code 构建自定义 AI 代理和应用。
An image to describe post