AIGC Weekly #148 真是充实的一周啊

封面提示词：A square-shaped vacuum-sealed transparent plastic bag tightly packed with vibrant pink peonies, arranged in a compact and visually rich way, petals showing layered natural textures, deep but realistic shades of pink, soft studio lighting, sharp plastic reflections, black background, high contrast and detail, hyperrealistic editorial product photography. --ar 16:9 --profile 4a752ro an6xsb5

上周精选✦

谷歌发布 Gemini 3 Pro 模型

谷歌上周终于发布了万众期待的 Gemini 3 确实没有辜负受众的期待，从测试基准到发布后大家的测试结果都说明了这一点。

这是一个真正的多模态模型，从训练开始就就被构建为能够无缝地综合关于任何主题的多模态信息，包括文本、图像、视频、音频和代码。

推理能力史诗级加强：Gemini 3 Pro 现在是全球最强的多模态模型。LMArena 1501 分登顶。在 Humanity’s Last Exam 这种变态难的测试里拿到 37.5%，数学能力在 MathArena 上也是刷新纪录。不管是看复杂的图表还是解高难度的数学题，它现在的理解深度和细腻程度都上了一个台阶。

Deep Think 深度思考模式：这次谷歌也跟进了类似 o1 的慢思考模式。Gemini 3 Deep Think 会花更多时间去推理，专门解决那种需要剥丝抽茧的复杂问题。测试数据比 Pro 版本还要高一截，不过目前是先给安全测试人员用，Ultra 用户还得再等几周。

记忆与多模态的融合：Gemini 3 现在的上下文窗口依然是 100 万 token，但处理信息的维度更广了。比如你可以把家里的手写老食谱拍给它，它能整理成电子版；或者把匹克球比赛视频丢给它，它能分析你的动作并制定训练计划。它不再只是读文字，而是真的在"读懂现场"。

开发能力也非常强大：在零样本生成方面表现出色，能够处理复杂的提示和指令，从而呈现更丰富、更具交互性的网页用户界面。

我自己的感受也是这样的，当然有些朋友可能会有些不同的看法，我建议在谷歌的 AI Studio 使用这个模型试试，抛开哪些可能是负向优化的 Agent 工程的影响。

这里有我所有用 Gemini 3 开发的测试案例合集。

An image to describe post

谷歌从原来 Windsurf 挖来的人也没闲着，开发了谷歌的 AI IDE Google Antigravity，基本上跟现在主流的 AI IDE 差不多，特色内容是：

自主与并行开发：智能体可以自主创建实施计划、列出先决条件并提出架构建议。支持多个智能体同时在后台运行。

可验证的代码质量：智能体在完成任务后，会自动生成修复Bug前后的浏览器截图，甚至提供功能实现的屏幕录像。

全新的协作与反馈模式：就像设计师工具一样，开发者可以直接在智能体生成的网页截图上点击并留下视觉反馈（例如：“让这个弹窗更醒目”或“修改这个UI”）。还支持针对代码差异（Diffs）和浏览器操作录屏进行评论。
An image to describe post

谷歌发布 Nano Banana Pro 图像模型

除了上面的 Gemini 3 Pro 模型外也发布了 Gemini 3 Pro Image 也就是由 Gemini 3 Pro 驱动的 Nano Banana Pro 模型。

模型能够生成高保真图像，在文本渲染准确性和丰富的世界知识方面表现更佳，并通过模型利用 Google 搜索进行定位检索以根据用户提示检索数据，从而进一步增强能力，具体的提升有：

基于增强的推理、世界知识和实时信息生成更准确、具上下文丰富性的视觉内容。
在图像中直接生成更好、更准确且易读的多语言文本，中文也可以而且很好。
可以混合比以往更多的元素，最多使用 14 张图片，并保持最多 5 位人物的一致性和相似性！
支持多种可用的纵横比以及可用的 2K 和 4K 分辨率

每一部分提升都是非常准确和有需求的，尤其是中文文本渲染和世界知识（模型本身和搜索），直接将模型的使用范围拓展了非常多。

具体的案例可以看我这个 Nano Banana Pro 的案例合集。

An image to describe post