封面提示词在这里

上周精选✦

谷歌发布汇总

Veo 2视频生成模型发布

谷歌发布 Veo 2 视频模型,这才是 Sora 应该有的质量,非常强大,不过目前支持使用Image3的图片生成视频,而且需要申请资格,填写申请表的时候记得选美国。

  • 支持生成高达 4K 分辨率视频,可以延长到几分钟
  • 非常详细的画面细节表现
  • 足够真实的物理交互
  • 可以完成非常复杂的动作

这里是主流 AI 视频生成模型测试,可以很明显的看出Veo 2的强大。
An image to describe post

Image 3图像生成模型发布

Image 3也迎来了升级,这次的质量好的离谱,提示词理解和细节都跟FLUX和MJ不相上下了。

这里有我把它跟Midjourney的对比测试,从后面的投票来看,喜欢两者的人数量差不多。

谷歌还发了一个牛皮的东西 Whisk,支持通过给主题、场景、风格三张不同的图片控制新的图片生成。同样需要美国 IP 才能使用,很好玩。
An image to describe post

Gemini-Exp-1206 在APP中可用

Gemini-Exp-1206 原来真是 Gemini 2 的高级版本,Gemini Advanced 会员可以在 Gemini APP 使用了,谷歌说代码、数学和推理能力更强。

Gemini 2.0 Flash Thinking

发布基于 Gemini 2 Flash 的推理模型 Gemini 2.0 Flash Thinking,直接在 LMArena 所有类别拿到第一,而且比 O1 快 5 倍!现在可以直接在 AI Studio 免费使用,推理过程公开。
An image to describe post

OpenAI 发布内容汇总,O3有点离谱的

最终要的就是O3模型的发布, Open AI 没有详细的介绍模型架构和内容,就演示了几个问题,然后就是一系列基准,比如

  • 专门为AGI制定的基准高计算模型得分达到了 87.5%,人类是85%。
  • Frontier Math 数学数据集陶哲轩说这个数据集起码能挡住AI好几年,但O3一下就干到了25%。
  • Codeforces 达到了 2727 分,这是一个编程竞技挑战,Open AI首席科学家也才能到2600多分。

O3没说发布时间,但是基于O3训练的O3Mini会在明年一月发布,现在可以申请红队测试提前试用,不过基本不可能过,这个很严格。

这里摘录几个大佬关于O3的评论:

  • 这个模型在前沿数学基准测试中得分25%。这些数学问题难到几乎没有人能理解,更不用说解决它们。我做不到,你也做不到。这就是经济奇点,所有旧有的社会和经济模式都将崩塌。前方是一个巨大的未知世界,没有人能真正理解即将发生什么。
  • 更重要的是,从o1到o3的进展仅用了三个月,这表明在新范式下进展会有多快 —— 这种新范式是在思维链上使用强化学习来扩展推理计算能力。这比每1-2年训练一个新模型的传统预训练范式要快得多。
  • 我相信o3是程序合成领域的AlexNet时刻。我们现在有了具体证据表明深度学习引导的程序搜索是有效的。从我的角度来看,我们正在仰望另一座同样高且对AGI同样重要的山峰。
  • 在技术可以创造一切的现实中,那些知道什么不该创造、能够优雅地对某些可能性说“不”的人将脱颖而出。

这几天Open AI 的其他一些发布:

Explorer 世界生成模型发布

Odyssey 走了另一条 AI视频路径,真给他们走出来了,发布 Explorer 世界生成模型,这么说吧,这东西完爆李飞飞新公司那个发布。

  • 可将任何图像转换为详细的3D世界
  • 支持世界动态生成,实现3D运动效果
  • 采用高斯斑点作为世界表示方式
  • 支持在主流创意工具中编辑生成的世界

当前状态:生成一个世界平均需要10分钟,已在Garden Studios进行了实际制作工作流程测试,正在持续改进分辨率、世界完整性和可控性
An image to describe post