AIGC Weekly #113 | AIGC Weekly

封面提示词：A blue and yellow dragonfly with iridescent wings, macro photography, black background, National Geographic-style photo, in the style of furry art. The bee is on a pink flower. --ar 16:9 --style raw --profile 6hqtsxc nfdvgn8

上周精选✦

谷歌Gemini、AI Studio和开源模型的更新

上周Open AI发布了一些API更新之后，谷歌就应激了，库库发东西，发布了新的多模态开源模型Gemma 3、还有去年底预告的Gemini 2 Flash 的原生多模态图像输出、Gemini的应用也更新了新的深度研究和工具使用。

谷歌终于上线了去年年底画的饼，Gemini 2 Flash 支持了原生图片生成，目前 API 和 AI Studio 都已经可以使用，刚上线就被大家发现了很多玩法，以往需要复杂的 Comfyui 流程的才能做的事情现在一段提示词就行，我写了一篇介绍《视频制作新时代来了！Gemini 2 一句话生成所有分镜图片和文案》可以看看，另外群友写的这个《16组案例测试Gemini 2.0，说是言出法随的当下P图王中王不为过！》也很细。

Gemini 应用本身也发布了大量更新，具体包括：

Deep Research 由 2.0 Flash Thinking提供支持：

增强了 Gemini 在所有研究阶段的能力——从规划和搜索到推理、分析和报告——创建更高质量、多页的报告，这些报告更加详细和有洞察力。

而且现在支持免费试用，推荐试试真的很强，起码不降智，这里是我的案例。

支持链接你的搜索记录对 Gemini 进行个性化设置：

Gemini 与 Google 搜索记录连接，以提供更符合个人需求的响应。例如，可以向 Gemini 询问餐厅推荐，它会参考您最近的与食物相关的搜索；或者询问旅行建议，Gemini 会根据之前搜索过的目的地进行回应。

Gemini 可以控制更多应用日历、照片、笔记等：

Gemini 链接了更多应用，包括 Calendar、Notes、Tasks 和 Photos，目前只有英语可用，相册会在过几周支持，之后你就能通过自然语言搜索你的相册内容。

另外还开源了 Gemma 3 模型，LMArena 排行榜居然居然超过了 Llama 405B 和 03mini：

1B、4B、12B 和 27B 四个尺寸
超过 35 种语言的开箱即用支持
支持多模态视觉推理能力
128K 的超长上下文长度
支持函数调用和结构化输出
提供官方量化版本

最后谷歌终于有 Gemini API 服务的状态查询页面了，谷歌 AI Studio 现在可以直接输入 youtube 视频链接。

An image to describe post

Open AI 的 Agents API 工具发布会

Open AI 12 号开了一个面向开发者的发布会，发布了一系列用于构建 Agents 的工具。具体包括：

Responses API：结合了 Chat Completions 的简洁性和 Assistants 的工具使用，这一新基础为构建代理提供了更大的灵活性。Web 搜索、文件搜索或计算机使用只需几行代码。
Web 搜索：只需几行代码即可集成，Agent 可以从网络获取最新答案（并附带引用来源）。
文件搜索：从大量文档集合中检索精确信息，内置查询优化和自定义重新排序。
Computer use：由 Operator 背后的相同 CUA 模型驱动，你现在可以构建能够完成计算机任务的代理，例如网页 QA 测试或数据录入。
Agents SDK：开源 SDK，用于编排多代理工作流，改进 Swarm。使用内置工具配置代理，移交任务，添加安全防护措施，并可视化执行轨迹以调试和优化性能。