封面提示词 Seedream 4.0:模糊花朵的平移镜头自由下落,柔焦,胶片颗粒感,红色渐变背景,运动模糊

上周精选✦

字节发布了 Seedream 4.0

我一般很少会把字节相关的模型放在这部分的,很多时候相关模型就是差一点,Seedream 4.0 是第一个我觉得达到了在某个类别达到了 SOTA 的。

在图像质量、美学表现、提示词理解遵循、世界知识、修改准确度、ID 一致性、风格一致性、文字生成这些维度综合起来就是现在世界上最强的图像生成模型。

这里也有我的一些教程和测试,可以看看

字节肯定的也意识到了这个模型的价值,4.0 的技术报告页面除了测试案例和两张图表外没有透露任何信息,不过他们的另一篇论文《RewardDance:视觉生成中的奖励模型扩展》透露了一些信息。

介绍了一个名为 RewardDance 的可扩展奖励模型(RM)框架,旨在解决视觉生成领域中现有奖励模型的根本性局限和“奖励作弊”(reward hacking)问题。

核心思想是修改了生成式奖励的范式,RewardDance 将奖励评分重新定义为模型预测“yes”token的概率, 这个“yes”token表示生成的图像在特定标准下优于参考图像,这种方法将奖励目标与VLM的自回归、下一token预测机制内在对齐,解决了传统回归范式的“范式不匹配”问题。

这种对齐使得RewardDance能够沿着两个维度进行扩展:

模型扩展 (Model Scaling):系统地将奖励模型扩展到26亿参数,打破了使用小型固定尺寸模型的传统做法。实验表明,模型参数数量与奖励建模性能和最终生成质量直接相关。

上下文扩展 (Context Scaling):通过整合任务特定指令、参考示例和思维链(Chain-of-Thought, CoT)推理来丰富输入上下文,实现更稳健和准确的奖励判断。这与传统方法仅依赖简单图像-文本对形成对比。

从论文里面来看 Seedream 3.0 的模型规模达到了 26B,所以有里有相信 Seedream 4.0 比这个要大,比如里面就提到了这个方案让模型有了突破到 70B 或者 100B 的可能性。
An image to describe post