封面提示词:32-Bit Isometric view of and dark alley, with a police car with the sirens on, a detective near the car, raining

大家好,我是歸藏欢迎收听 AIGC 周刊的 136 期(8 月 18 日到 8 月 24 日)的内容,音频播客在这里

上周精选✦

AI 游戏爆发的前夜?

搜罗了一下上周的主要新闻发现三巨头马没啥信息增量,反倒是 AI 游戏或者说“AI 驱动的可互动内容消费”这个领域出现了很多令人欣喜的变化。

首先是 Runway 跨界搞得 AI 游戏平台 Game Worlds 正式上线了,用户可以创建或者游玩别人创建的非线性叙事游戏,游戏主要通过不断的选择分支或者对话进行。

本质上是在过去原有的 AI 陪伴流程基础上进行的创新,主要创新点:

  • 内容上用实时生成的图文内容表现游戏内容,UI 排版很像漫画,为了搞定文字生成的问题,文字是用 UI 展示在图像上的。
  • 创建游戏世界的时候会让你详细设定游戏的规则,比如胜利条件、失败条件、背景故事、图像风格等。
  • 游戏会采用数据驱动的方式让游玩者清晰的感知到自己的目标,而不是像之前的 AI 陪伴那样漫无目的聊天发散,非常依赖用户的主动性。

An image to describe post

然后是香港科技大学开发的面向未来文明实验的开放式数字沙盒游戏 Aivilization ,用户可以在游戏中通过提示词驱动自己的 Agent 角色完成各种采集交易学习建造等任务,可以看作一个 AI 星露谷。

但是跟星露谷不同的是,这个游戏是联机的,所有用户的 Agent 都在交易和采集会对市场产生影响,相互的角色也会有交互。

平台已汇聚近三万名 AI Agent,参与者可在可视化界面中为 Agent 设定人格、能力、价值观与目标,并通过编辑认知与行为模块、提供提示及长期指导,持续观察其在虚拟社会中的协作、交易、记忆与信任构建过程,进而见证新的社会规则和经济秩序如何自发涌现。

如果上面 Runway 的这种游戏形式代表着降低游戏生成内容复杂性的尝试的话。

Aivilization 就是提供了一个高度复杂、可扩展的智能体社会仿真框架,为构建大型、动态、自主演进的游戏世界奠定了基础,超越了传统游戏中 NPC 的能力。

回头我会在群里抽邀请码。

An image to describe post

另外一个是李飞飞的 World lab 终于开测了,很多人都收到了邀请,你可以用一张图片生成一个永久可探索的 3D 空间,这个和谷歌的 Genie 3 是两个世界模型的路径。

World Labs 的方法融合了计算机视觉重建与生成式填充技术。本质上,它从输入照片推断出场景的三维结构和纹理分布,然后利用生成模型补全照片未涵盖的视角区域,产出360度完整场景。

主要特点有:单次生成、持续稳定、即时交互、可轻度编辑
World Labs 和 Genie 3 一起构成了未来 3D AI 内容生成的两个重要方向,目前来看 World Labs 稳定,但是 Genie 3 交互性和创意性比较强。

An image to describe post

Deepseek 更新 V3.1 模型

上周 Deepseek 终于发布了新的模型更新,变成了 V3.1,同时整合了推理和非推理模型现在都是一个模型在驱动,Agent 能力也得到了增强,推理效率更高。另外在评论区发的 UE8M0 这个格式也引起了大家对于新国产显卡的推测。

混合推理架构: 首创一个模型支持“思考”与“非思考”两种模式,用户可自由切换以应对不同复杂度的任务。

Agent 能力大幅提升: 经过优化,新模型在工具使用、编程和搜索等智能体任务上表现更强,尤其在复杂任务中性能提升显著。

思考效率更高: “思考模式” (V3.1-Think) 相比旧版能用更少的计算量(token消耗减少20%-50%)达到同等甚至更优的性能,给出答案的速度更快。

官方App、网页端及API已全面升级。API中 deepseek-reasoner 对应思考模式,deepseek-chat 对应非思考模式,上下文长度均扩展至128K。

API 价格将从2025年9月6日起进行调整,同时取消夜间优惠。输入:0.5元每百万Token(命中缓存)4元每百万Token(未命中缓存),输出:12元每百万Token。
An image to describe post

谷歌 Pixel 硬件发布会带来一堆 AI 功能

谷歌今年的硬件发布会上第一次把过去一年他们的 AI 成果基本上都落地到了硬件上,所有的系统应用都有对应的 AI 能力,而且很多点子整合的还不错。

主要的更新内容有:

  1. 所有 Pixel 10 手机均搭载 Google Tensor G5 芯片,可以本地运行 Gemini Nano 模型。

  2. Magic Cue 功能支持将所有谷歌应用的信息串联起来,在合适的地方建议你在 Messages 应用中一键分享。

  3. Voice Translate 会利用端侧模型实时翻译通话内容,并模仿对方音色,但目前不支持翻译中文。

  4. Call Screen 的 Take a Message 功能为错过或拒接来电提供实时转录,并根据留言建议下一步操作,内容会放在通话笔记中。

  5. Gemini Live 更新:摄像头共享时 Gemini 可高亮物品,Gemini APP 现支持用 Veo3 生成视频。

  6. NotebookLM 与 Pixel 截图和录音应用整合,检测到适合加入笔记的内容会建议收藏到 NotebookLM。

  7. 新的笔记应用 Pixel Journal 帮助记录身心健康和目标进展,设备端 AI 提供写作提示和洞见。

  8. 录音机应用可根据哼唱生成与自己氛围相符的独特曲目。

  9. 新的 Pixel Watch 4 有 Gemini 驱动的健身教练能力,提供主动健身与睡眠指导及按需建议,通过“抬腕交谈”唤出 Gemini 交流

代表的几个趋势:

  • 手机系统的所有自带软件全部 AI 化,而且功能都非常实用
  • 除了手机之外的其他硬件产品也全部加上了 Gemini 的对话和沟通能力
  • 两个重点发力的 AI 软件场景是 AI 健康教练和 AI 修图&拍摄指导
  • AI 功能不再局限于主动触发,会自动在合适的场景下弹出和给出建议
  • 多个系统 APP 之间的 AI 能力可以联动,输出的信息可以相互流转
  • 端侧模型大量使用,覆盖了所有模态,AI 照片修改和100 倍数码变焦细节补充以及通话实时翻译&文本建议

An image to describe post