AIGC Weekly #115

OpenAI发布了GPT-4o图像模型，具备强大的图像生成能力和多种特性，但也存在一些限制。与此同时，Gemini 2.5 Pro和Deepseek V3也发布了新版本，提升了多模态理解和推理能力。其他动态包括Midjourney V7的即将发布和苹果在AI领域的重大投资。

歸藏

2025-03-30 2025-03-30T17:02:52

AIGC Weekly #115

🫣

封面提示词：A mysterious, shrouded figure draped in fluid, high-shine metallic silver fabric that cascades in sculptural folds over the body. The figure tilts slightly forward, the contours of their form partially obscured beneath the silky material, creating an abstract, ghostlike presence. The reflective fabric catches soft, neutral studio lighting, producing gentle highlights and subtle gradients. The background is minimal and smooth, allowing the intricate texture and surreal elegance of the silver cloth to dominate the frame. The mood is contemplative and otherworldly, blending futuristic fashion with fine art minimalism.

上周精选✦

Open AI发布GPT-4o图像模型

上周Open AI狙击谷歌发布了4o的图像生成模型，没没想到真给他狙击到了，直接把图像生成的可控性拉到了一个大家以前都不敢想的地步。

除了基础的模型能力很强以外，还有一堆其他特性：

4o 能将精确符号与图像融合的能力，使图像生成成为视觉传达的工具。
通过自然对话来优化图像。GPT-4o 能够基于聊天上下文中的图像和文本进行创作，确保整体一致性。
GPT‑4o 的图像生成能够细致遵循提示，注重细节。其他系统在处理约 5-8 个对象时可能遇到困难，而 GPT‑4o 可以处理多达 10-20 个不同对象。
GPT-4o 能够分析并学习用户上传的图片，无缝整合其细节至上下文中，从而指导图像生成。
原生图像生成功能使 4o 能够将其知识在文本和图像之间建立联系，从而打造出一个感觉更智能、更高效的模型。

当然Open AI也指出了一些4o图片生成的限制：

会出现生成的图像被剪裁的情况
在生成图像的的文字或者跟现实相关的内容的时候会有幻觉
当生成依赖其知识库的图像时，它可能难以同时准确呈现超过 10-20 个不同的概念，例如完整的元素周期表。
无法实现精确的图表绘制
该模型在处理非拉丁语系语言时有时会遇到困难，字符可能不准确或出现幻觉，尤其是在复杂度较高的情况下。
针对图像生成中特定部分（如错别字）的编辑请求并不总是有效，有时还会以非预期方式改变图像其他部分或引入更多错误。
当要求模型在非常小的尺寸上呈现细节信息时，模型会很吃力。

Open AI没有透露4o图像模型的具体架构，只说了这是一个自回归模型，但他们其中的一张图片样张上的板书说的稍微详细了一些。

最近大家应该也被各种4o的图片生成玩法刷屏了，特别是吉卜力，各种版权内容出圈之后Open AI又开始紧急限制，整个模型的生成速度和生成质量稳定性一落千丈。

每次Open AI的发布都这样，发布的时候牛皮，然后限制，然后问题也没有被修复，继续炒作下一个议题。

GPT-4o 模型还更新了一个新的版本，具有更好的提示词遵循、编码能力提升、更少的 emoji 和更多的创造力。

An image to describe post

Gemini 2.5 Pro 发布

能让Open AI拿4o图片生成这种级别的东西出来狙击的东西一定很强，Gemini 2.5 Pro 发布了自带多模态理解和推理能力。

Gemini 2.5 Pro 在Humanity’s Last Exam这个测试中获得了18.8%的得分，同时在GPQA 和 AIME 2025 等数学和科学基准测试中领先。

在 SWE-Bench Verified（行业标准的代理代码评估）中，Gemini 2.5 Pro 在自定义代理设置下得分为 63.8%。

其他参数包括：文本、音频、图像、视频多模态、100 万 token 的上下文窗口。

现在已经在AI Studio和Gemini APP中提供，都是免费的，可以尝试一下，我还拿我的提示词测试了一下前端代码能力。

An image to describe post

Deepseek V3 发布 0324 更新

上周真是神仙打架，模型四巨头（Deepseek、Google、Open AI、Anthropic）有三家发模型。

Deepseek V3 只是一个小的常规更新就把他们的前端代码能力拉到了非常离谱的地步，基本上可以跟没有思考能力的Claude 3.7掰手腕了，这是我的测试。

官方报告介绍的能力升级有：

推理能力提升：借鉴DeepSeek-R1的强化学习技术，数学、代码类评测超过GPT-4.5，百科知识、数学和代码任务表现均有提升
前端开发增强：HTML等代码可用性更高，视觉效果更美观、富有设计感
中文写作升级：基于R1写作水平进一步优化，特别提升中长篇文本创作质量
中文搜索优化：联网搜索场景下内容更详实准确，排版更清晰美观

一些其他信息：

与之前V3使用同样base模型，仅改进后训练方法
模型参数约660B，开源版本上下文长度128K
网页端、App和API提供64K上下文
依然采用MIT License，允许用户利用模型输出、通过模型蒸馏训练其他模型

目前Deepseek官方的应用不开启深度思考就是V30324，火山的API也更新了，不过模型名字需要更换。

没想到我这两周写的一堆网页提示词这就都能产品化了，成本和模型能力真是两个AI领域最重要的东西。

An image to describe post

PREMIUM