AIGC Weekly #170 | AIGC Weekly

封面提示词：flower reaching toward a soft blue and blush dusk sky, iridescent crystal light scatter, hazy atmospheric glow, analog 35mm film grain, soft focus, pastel sky, feels like a memory, floating weightlessly --v 8.1 --profile hs78bkj

上周精选✦

Open AI 的一些动向

上周 Anthropic 举行了开发者日，并没有什么特别大的发布，仅有的一些消息我写在下面了。目前主要的产品都没有更新，反倒是 OpenAI 一直有些动向。

尤其是 Codex，现在支持从 ChatGPT 里面导入你的设置，也可以把其他 Agent 的设置导入。

此外，Codex 还新增了内置的插件，支持使用和操作 Chrome 浏览器。

我试了一下，它不仅能操作 Chrome 浏览器，所有基于 Chrome 内核的浏览器都可以操作。比如我现在用的 Dia，它就可以操作。

具体的使用方式如下：

在插件页面找到 Chrome 浏览器的插件并安装。
安装后，它会引导你去安装一个 Chrome 浏览器扩展。

注意：这个插件在一些 IP 环境下无法安装，所以请留意你的网络环境。

这套方案应该还是基于 CDP MCP，只是做了一些深度的定制和优化。而且它在使用浏览器时是可以共享已有 Cookie 的，能够直接读取现在的登录状态，这一点还是挺好的。
An image to describe post

OpenAI 还更新了 GPT-5.5 Instant 模型，现在变成了 ChatGPT 默认模型。

模型提升了实时准确性和日常任务的表现，主要改进：

性能优化：在法律、金融、医学等领域的幻觉率明显下降。同时，在图片理解和文档解析方面表现更好。

表达风格：回答更加紧凑且聚焦要点，减少了无用的铺垫和过渡排版。简单来说就是废话变少了，之前的 5.5 版本（GPT-5.5）确实废话有点多。此外，个性化能力也得到了提升。已经全量发布。ChatGPT 已经将其设为默认模型，Codex 没有更新。

新功能引入：在 GPT 中引入了记忆来源功能。你可以通过控件可视化地查看 memory 来自什么地方，如果发现有问题，也可以直接编辑它。
An image to describe post

另外还推出了三个实时的语音模型。而且这次一反常态，没有将这些模型用在产品里面。

这可能是跟之前传言的 ChatGPT 与 Codex 合并的进度有关，估计会放到 Codex 里面。

GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper，目标是让语音成为人与软件交互的核心方式。相比传统“问一句、答一句”的语音助手，这些模型强调在对话中一边听一边想、一边调用工具、一边给出自然反馈，能处理更复杂的请求、保持上下文，并根据场景调整语气。

GPT‑Realtime‑2 主攻“语音 + 推理 + 工具调用”，支持并行调用工具、预响应短语、更长 128K 上下文和可调节的推理强度（从 minimal 到 xhigh），适合客服、搜索、运营等需要长对话和强决策的场景。GPT‑Realtime‑Translate 专注多语言实时翻译，支持 70+ 输入语言、13 种输出语言，面向客服、跨境销售、教育和内容出海等场景；GPT‑Realtime‑Whisper 则用于低延迟的流式转写，可做直播字幕、会议记录和实时语音理解。
An image to describe post