封面提示词:Realistic style scene, a sunny day on a subway, plane trees behind the glass forming blurred afterimages during high-speed travel, with the shimmering sea and colorful buildings in the distance, yet the general shapes of the flowers remain visible. Flowers and leaves shine through the train window, casting shadows inside the carriage. Viewed from a low-angle perspective, the light is bright, and the overall color tone is cool. Summer, high-definition wallpaper, masterpiece, masterwork.

上周精选✦

大家又开始发布图像模型了

在 Nano Banana 出现以后,图像模型的发布沉寂了好长一段时间。以前那些图像模型厂商都很长时间没有动静,然后在 GPT-Image 2.0 出现以后,大家反倒是又开始发布图像模型了。这周有两个图像模型发布,上周 Krea 也发布了他们的图像模型。

Krea 发布 Krea 2 图像模型

这是上个月的事儿了,刚好今天拿出来一起说一下。Krea 也发布了他们的 Krea 2 图像模型。

核心卖点是“为美学而生”。页面通过大量动态构图、广角透视、时尚摄影和插画示例展示,它在动作感、夸张透视、风格化表现上的优势,强调能快速生成具有张力和设计感的画面,而不是四张几乎一样的安全图。

两个重点能力:一是“风格参考”,可以用单张参考图把任意提示词生成到相似的视觉风格;二是“情绪板(moodboard)”,让你用一组图去规定更复杂的审美方向,用于 Cyber Zine、极简水墨、未来主义、热感喷枪等复杂混合风格。
An image to describe post

Ideogram 开源 Ideogram 4.0

9.3B 参数的开源文生图基础模型,采用单流 DiT 架构,将文本和图像 latent 混合在一条序列中,由冻结的 Qwen3‑VL‑8B 作为文本编码器、训练的 DiT 主干、Euler 流匹配采样器以及冻结的 KL VAE 组成。

Ideogram 4.0 的最大特色是「结构化 JSON 提示词」:训练数据全部是带色彩方案、元素级样式、可选 bbox 的 JSON caption,推理时也强制按同一 schema 校验并解析,从而精细控制版式布局、调色板和多行多字体的版面文字。
An image to describe post

Reve 发布 Reve 2.0 图像模型

Reve 2.0 这个图像模型强啊,原生 4K 输出,主要是它支持类似于你在 PS 里用到的图像分层之后的编辑能力。图像中的每一个部分,你点它就能选中。而且这个不需要中间的处理,他给你处理好了。就是你想要编辑哪个部分,就点哪个部分。

布局是一种结构化的图像描述形式,每个元素都有位置、大小、局部文字说明以及可选的颜色或参考图像,类似网页里的 HTML 或矢量图里的 SVG,用来把语义意图和最终像素渲染解耦,让人类和 AI Agent 可以在同一个、可读可编辑的「视觉代码」层上协作,从而获得比改 prompt 精细得多的控制力。

为支持这种表示,他们用「布局」替代传统的纯文本提示作为中间表征。布局是一种结构化的图像描述形式,每个元素都有位置、大小、局部文字说明以及可选的颜色或参考图像,类似网页里的 HTML 或矢量图里的 SVG,用来把语义意图和最终像素渲染解耦,让人类和 AI Agent 可以在同一个、可读可编辑的「视觉代码」层上协作,从而获得比改 prompt 精细得多的控制力。

为支持这种表示,Reve 构建了统一的大型布局模型:模型可以把布局、指令和图像任意组合作为输入,在内部「思考」出一个布局,再渲染成最终画面。
An image to describe post

微软发布 MAI-Image-2.5

微软最新的图像模型 MAI-Image-2.5 及其轻量版本 MAI-Image-2.5-Flash。这宣传是真的捉急,我甚至看了半天都找不着在哪儿能方便地用它,也找不到几张示例图。

MAI-Image-2.5 在 Arena 榜单上取得了文本生成图像第三名、图像编辑第二名的成绩,相比上一代在文字渲染、卡通与二次元等方向有明显提升,并且具备更强的场景理解、空间关系推理和局部精细编辑能力,包括保持人脸与身份一致性等。

该模型在微软产品和开发者生态中的落地:已经在 PowerPoint 中用于生成高质量演示图片,并正在向 OneDrive 推出精细图像编辑能力。对开发者来说,MAI-Image-2.5 和更便宜快速的 2.5-Flash 已在 Foundry 和 MAI Playground 上线,并通过 OpenRouter 提供统一 API 访问。
An image to describe post

Codex 更新了一大批针对各领域的官方插件

Codex 最近在频繁更新一些非开发者专用的功能,预告也说他们会将 ChatGPT 和 Codex 合并在一起。目前来看,合并路径可能是 Codex 改名叫 ChatGPT,也就是 ChatGPT 被合并到 Codex 里,但更名后依然叫 ChatGPT。

他们上周更新了非常多领域的官方插件,其中这个 Sites 插件非常有意思,但是不对普通 Pro 用户开放,挺蛋疼的。

OpenAI 推出了针对不同角色的新插件,这些插件把常用应用、技能和工作流打包在一起,例如面向分析师的数据分析插件、面向营销和创意团队的创意制作插件、面向销售团队的销售插件,以及服务产品设计、公开股票投资和投资银行等角色的插件,帮助他们在熟悉的工具和数据环境中完成各自的专业工作。

文章还介绍了“Sites”和“批注”两项新能力。通过“Sites”,用户可以让 Codex 把分析、计划或材料自动转化成可交互的网页或应用,比如客户评审页面、情景规划器或产品发布中心,并通过 URL 在团队内共享和更新;“批注”则允许用户在文档、站点或可视化内容上直接选中某个部分,让 Codex 按指示局部修改或优化,而不是从头重做。最后,文章说明了这些功能面向不同套餐和企业工作空间的开放方式,并提到未来会构建更开放的插件和站点生态系统,与更多合作伙伴集成。

另外 OpenAI 还给 ChatGPT 推出的新一代记忆系统「dreaming」

用于解决过去记忆容易过时、不准确、容量有限等问题。早期的记忆依赖用户显式说“请记住……”,后来通过在后台自动从多轮对话中提炼信息,引入了 dreaming,使模型可以主动归纳出用户的偏好、项目和约束,并以“记忆摘要”的形式呈现和可编辑。
An image to describe post