封面提示词:A blue and yellow dragonfly with iridescent wings, macro photography, black background, National Geographic-style photo, in the style of furry art. The bee is on a pink flower. --ar 16:9 --style raw --profile 6hqtsxc nfdvgn8
上周精选✦
谷歌Gemini、AI Studio和开源模型的更新
上周Open AI发布了一些API更新之后,谷歌就应激了,库库发东西,发布了新的多模态开源模型Gemma 3、还有去年底预告的Gemini 2 Flash 的原生多模态图像输出、Gemini的应用也更新了新的深度研究和工具使用。
谷歌终于上线了去年年底画的饼,Gemini 2 Flash 支持了原生图片生成,目前 API 和 AI Studio 都已经可以使用,刚上线就被大家发现了很多玩法,以往需要复杂的 Comfyui 流程的才能做的事情现在一段提示词就行,我写了一篇介绍《视频制作新时代来了!Gemini 2 一句话生成所有分镜图片和文案》可以看看,另外群友写的这个《16组案例测试Gemini 2.0,说是言出法随的当下P图王中王不为过!》也很细。
Gemini 应用本身也发布了大量更新,具体包括:
Deep Research 由 2.0 Flash Thinking提供支持:
增强了 Gemini 在所有研究阶段的能力——从规划和搜索到推理、分析和报告——创建更高质量、多页的报告,这些报告更加详细和有洞察力。
而且现在支持免费试用,推荐试试真的很强,起码不降智,这里是我的案例。
支持链接你的搜索记录对 Gemini 进行个性化设置:
Gemini 与 Google 搜索记录连接,以提供更符合个人需求的响应。例如,可以向 Gemini 询问餐厅推荐,它会参考您最近的与食物相关的搜索;或者询问旅行建议,Gemini 会根据之前搜索过的目的地进行回应。
Gemini 可以控制更多应用日历、照片、笔记等:
Gemini 链接了更多应用,包括 Calendar、Notes、Tasks 和 Photos,目前只有英语可用,相册会在过几周支持,之后你就能通过自然语言搜索你的相册内容。
另外还开源了 Gemma 3 模型,LMArena 排行榜居然居然超过了 Llama 405B 和 03mini:
- 1B、4B、12B 和 27B 四个尺寸
- 超过 35 种语言的开箱即用支持
- 支持多模态视觉推理能力
- 128K 的超长上下文长度
- 支持函数调用和结构化输出
- 提供官方量化版本
最后谷歌终于有 Gemini API 服务的状态查询页面了,谷歌 AI Studio 现在可以直接输入 youtube 视频链接。
Open AI 的 Agents API 工具发布会
Open AI 12 号开了一个面向开发者的发布会,发布了一系列用于构建 Agents 的工具。具体包括:
- Responses API:结合了 Chat Completions 的简洁性和 Assistants 的工具使用,这一新基础为构建代理提供了更大的灵活性。Web 搜索、文件搜索或计算机使用只需几行代码。
- Web 搜索:只需几行代码即可集成,Agent 可以从网络获取最新答案(并附带引用来源)。
- 文件搜索:从大量文档集合中检索精确信息,内置查询优化和自定义重新排序。
- Computer use:由 Operator 背后的相同 CUA 模型驱动,你现在可以构建能够完成计算机任务的代理,例如网页 QA 测试或数据录入。
- Agents SDK:开源 SDK,用于编排多代理工作流,改进 Swarm。使用内置工具配置代理,移交任务,添加安全防护措施,并可视化执行轨迹以调试和优化性能。