AIGC Weekly #172 | AIGC Weekly

封面提示词：digital art featuring glowing blue flowers with white centers, surrounded by a radiant aura of red, orange, and purple. the stems are thin blue lines. the background shifts from a light gray and white at the bottom to a dark, speckled top. small blue and white orbs are present. the image has a dreamlike, ethereal quality. --ar 16:9 --profile xlmw82e

上周主要玩了一下 AI 硬件，把我那个墨水屏从 AI 的进度通知和监控，转变为了可以由 Agent 助理控制的、放在屏幕旁边的电子便签。

它可以推送相当多的组件，用来提醒你当前的任务进度、日历、To-do、GitHub 信息以及其他信息。由 AI 去控制它应该显示什么，固件里只写核心的样式，通过蓝牙和 Wi-Fi 就可以更新。

另外，藏师傅的 PPT Skills 上周用了 25 天就突破了 10,000 Star，相当猛了。

上周精选✦

Google I/O 大会的发布有点难顶

上周谷歌的 I/O 大会有点难顶，发布的东西没有一个是可以跟目前最强的掰手腕的，无论是新的 Antigravity，还是 Gemini 3.5 Flash 或者是 Gemini Omni。

**首先看看 Gemini 3.5 Flash** 在测评上比 3.1 Pro 强很多，但体感上不太行，还是 Flash 水平，而且价格实在是太贵了。

谷歌介绍它在代码能力、多步推理和多模态理解等多项基准上超过 Gemini 3.1 Pro，速度却仍然非常快，可以在 Gemini App、搜索 AI 模式、Google Antigravity 开发平台以及企业版 Gemini 中使用。

Google 还在内部测试更强的 3.5 Pro，计划下个月发布。

An image to describe post

然后是 Gemini APP，整个设计都更新了，这次设计更新还是可以的尤其是 IOS 应用非常的精致。

然后是两个新 Agent：Daily Brief 和 Gemini Spark。

Daily Brief 会在你授权后，自动从 Gmail、Calendar 等应用中抓取关键信息，按你的目标优先级整理成早间简报，并给出后续行动建议。

Gemini Spark 则是 7×24 小时工作的云端个人 Agent，深度集成 Workspace，可持续在后台帮你处理复杂任务，比如定期解析账单、订阅提醒、整理会议纪要并生成文档和邮件，而且未来还能通过 MCP 连接第三方服务与本地浏览器。

Gemini macOS 桌面应用也在升级，将引入 Spark 和更自然的语音交互，利用屏幕上下文把你的“随口思考”直接转成更精准的文本或草稿。

An image to describe post

视频模型也有更新，不过这次没叫 Veo4，叫 Gemini Omni，首发版本叫 Gemini Omni Flash。

从命名来看是 Imagen4 和 Nano Banana 的关系。

延续了 Gemini 从一开始就“原生多模态”的设计，把图像、文本、音频、视频都当作输入。

简单试了一下，在图片、视频参考、编辑以及智能程度上都远没有 Seedance 2.0 强。

主要能力有：

“对话式视频编辑”，你可以用一句句指令连续改动视频内容，比如让雕塑变成泡泡、让镜子像液体一样波动、改光线、改机位，而且角色和物理效果可以在多轮编辑中保持一致。
“具备物理与世界知识的视频生成”，比如理解重力和流体，让弹珠轨道这类场景更接近真实，同时还能用短文本做知识类可视化讲解，比传统“只会拼图像”的模型更有故事性。
“任意组合参考素材”，可以把图片、视频、语音作为参考，迁移风格、动作或特效，例如把某个视频的相机运动和另一张角色图像融合，或用你画的草图驱动真实风格的画面，并支持应用风格、动作、特效等多种组合方式。

An image to describe post

编程产品上，AI Studio 现在变成了一个应用创建器，这次更新了支持将 Google Doc 做为数据来源以及支持创建安卓应用，移动 APP 也将在七月上线。

Antigravity 更是拉跨，整个交互界面完全跟 Codex 一样，而且旧的记录跟新的不兼容。

整个编程体系都整合到了Antigravity里面，包括Antigravity 2.0 桌面应用、命令行工具 Antigravity CLI、可自托管的 Antigravity SDK，以及与 Google Cloud 企业平台的打通。

An image to describe post

Open AI：Codex 更新超多有用功能、独立解决数学难题

这几家一直没有放弃用 AI 解决前沿科学问题的努力，Open AI 这波整了个大的。

用一个模型独立解决了组合几何中的经典难题“单位距离问题”，推翻了数学界近 80 年普遍相信的一个猜想。

解决的问题是“单位距离问题”：在平面上放 n 个点，最多能有多少对点之间的距离正好是 1。

几十年来，人们几乎一致认为，最好构造方式接近“方格点阵”，其单位距离对数大致是 n 的 1 次方稍微多一点。

而 OpenAI 的内部模型给出了一个全新构造，在无穷多个 n 的情形下，能达到 n 的 1+δ 次方（δ 是一个固定正数，比如后续改进给出 δ=0.014），这直接否定了原先“几乎线性上界”的猜想。

更令人意外的是，证明核心思路来自代数数论：把原来用“高斯整数”（形如 a+bi 的复数，a、b 是整数）描述点阵的想法，推广到结构更复杂、对称性更丰富的“代数数域”，并用无限类域塔、Golod–Shafarevich 理论等深层工具证明这类数域的存在，从而构造出拥有更多单位距离的点集。

多个非常权威顶尖数学家认定为 AI 数学里的重要里程碑。

An image to describe post

Open 最近真是找到舒适区了，疯狂更新 Codex，上周的几个更新也都很好。

其中快捷截图添加上下文和内置浏览器高级注释的功能太有用了。你只需要同时按住左边和右边的 Command 键，它就会把你当前鼠标所在位置的窗口全部截下来，然后自动填入到 Codex 的输入框里。

它这个截图不只是你当前窗口的这个位置，而且它会把屏幕上没有的文本，也都填入到上下文里。

然后 /goal 这个功能已经正式上线到 Codex App 了。这个功能更猛，你只要给它一个目标，它就会一直执行直到完成任务。这个过程可能持续几小时甚至几天时间。

而且你还可以：随时更改它的目标和引导、随时暂停，等你需要的时候继续执行。

如果你按下这个斜杠命令以后，没有出现这个可选项的话，你需要去它的 config 文件里改一下这个指令，它就能开启。具体方式是：在 config.toml 中启用 features.goals goals = true 。

应用内浏览器也变得非常快和流畅。它有一个高级注释模式，可以让你在评论元素的同时去修改这些元素，甚至可以直接编辑。

这个可太爽了！你比如说用了我的 PPT Skills 以后，你觉得这个字太小或者里边的文字不对，你就可以直接编辑这个文字，而不用让 Codex 去帮你编辑。

还有一个是团队共享插件。在团队版本中，现在可以给你的团队成员批量安装插件了，目前该功能支持 Business 用户使用。

另外支持锁屏使用 Computer use，允许在你的 Mac 锁屏后继续通过 Computer Use 使用桌面应用，但前提是你事先在 Codex 设置里主动开启。

开启后，Codex 会安装一个参与 macOS 解锁流程的授权插件，只在有一个“当前处于激活、可信的 computer use 任务”时，短暂地自动解锁桌面，同时遮挡显示内容，阻止本地输入，一旦检测到键盘或鼠标操作就立即重新锁屏，并暂停自动解锁。

An image to describe post