原文: https://ai-2027.com/ 网站有丰富的图表
我更愿意把它当作硬科幻小说设定
全文由Gemini 2.5 pro翻译

Daniel Kokotajlo
Scott Alexander
Thomas Larsen
Eli Lifland
Romeo Dean

最初于 2025 年 4 月 3 日发布于 AI-2027.com
由 Lightcone Infrastructure 设计

AI 2027

我们预测,在未来十年内,超人人工智能(superhuman AI)的影响将是巨大的,甚至超过工业革命。OpenAI、Google DeepMind 和 Anthropic 的 CEO 们都预测,通用人工智能(AGI)将在未来 5 年内到来。Sam Altman 曾表示,OpenAI 的目标是实现“真正意义上的超级智能”和“辉煌的未来”。人们很容易将此视为纯粹的炒作。但这将是一个严重的错误——这不仅仅是炒作。我们无意自行炒作 AI,但同时我们也认为,超级智能在本十年末到来的可能性惊人地高。

如果我们正处于超级智能的边缘,那么社会对此毫无准备。很少有人尝试过清晰阐述任何一条通往超级智能发展的可行路径。我们撰写《AI 2027》正是为了填补这一空白,提供急需的具体细节。我们希望看到世界上有更多类似的工作,特别是来自那些与我们观点相左的人。我们希望通过这样做,能够引发一场关于我们未来走向以及如何导向积极未来的广泛对话。

我们通过反复问自己“接下来会发生什么”来撰写这个场景。我们从当前(2025 年初)开始,撰写第一个时期(直到 2025 年中),然后是下一个时期,直到我们达到结局。我们并非试图达到任何特定的结局。然后,我们推翻重来,多次反复,直到我们得出一个我们认为合理的、完整的场景。在完成第一个结局——竞赛式结局(racing ending)——之后,我们编写了一个新的替代分支,因为我们想描绘一个更有希望的结局方式,而这个结局大致从相同的前提开始。

我们不可能事事都对——其中很多都是猜测。但在这个项目的过程中,我们进行了大量的背景研究、专家访谈和趋势外推,以做出尽可能明智的猜测。此外,我们的团队在预测方面,尤其是在 AI 领域,有着出色的记录。主要作者 Daniel Kokotajlo 在 4 年前写过一个类似的场景《2026 年看起来会怎样》(What 2026 Looks Like),该预测事后被证明相当准确;Eli Lifland 则是一位顶尖的竞技预测者。

在每一章的开头,你会在右边栏找到一个小图表,旨在让你了解该场景部分发生时世界的状况。关于这些数字的含义以及我们方法的更详细解释,请访问 ai-2027.com。

我们希望《AI 2027》对你有所帮助。

2025 年中:蹒跚学步的智能体

世界初次瞥见 AI 智能体(AI agents)。

计算机使用型智能体的广告强调“个人助理”这一术语:你可以给它们下达任务,比如“在 DoorDash 上给我点一份墨西哥卷饼”或者“打开我的预算电子表格并计算本月支出”。它们会在需要时与你确认:例如,请求你确认购买。¹ 尽管比像 Operator 这样的早期版本更先进,但它们仍难以获得广泛应用。²

与此同时,在公众视野之外,更专业的编码和研究智能体正开始改变其所在的行业。

2024 年的 AI 可以遵循具体指令:它们能将要点转化为邮件,将简单的请求转化为工作代码。到了 2025 年,AI 更像是员工。编码 AI 越来越像自主的智能体而非仅仅是助手:它们通过 Slack 或 Teams 接收指令,并能独立进行重要的代码修改,有时能节省数小时甚至数天的时间。³ 研究智能体则花费半小时在互联网上搜索以回答你的问题。

这些智能体在理论上(以及在精心挑选的例子中)令人印象深刻,但在实践中并不可靠。AI 推特上充斥着各种任务被搞砸的趣事,有些方式还特别滑稽。更好的智能体也很昂贵;一分钱一分货,性能最好的每月需要花费数百美元。* 尽管如此,许多公司还是找到了将 AI 智能体融入其工作流程的方法。⁴

¹ 起初,大多数人不愿意在没有监督的情况下允许购买。在接下来的几年里,随着 AI 变得更加可靠并建立起信任,自动允许小额购买变得常态化。

² 具体来说,我们预测它们在基础计算机任务的 OSWorld 基准测试中得分 65%(相比之下,Operator 为 38%,典型的熟练非专家人类为 70%)。

³ 例如,我们认为编码智能体将朝着像 Devin 那样的功能发展。我们预测到 2025 年中期,智能体在 SWEBench-Verified 上的得分将达到 85%。

⁴ 像 Glean 这样的企业工具也朝着提供日益自主的 AI 智能体方向发展。

*例如,OpenAI 的专业版目前每月收费 200 美元,而代理式编码 AI Devin 目前每月收费 500 美元。虽然前沿系统的成本随着时间的推移持续增加,但客户达到特定能力水平的成本却持续暴跌。对于现有能力,这大约以每年 50 倍的速度发生(根据 Epoch 的数据)。

2025 年末:世界上最昂贵的 AI

OpenBrain 正在建设世界上最大的数据中心。†

(为了避免单独点名任何现有公司,我们将描述一个虚构的通用人工智能公司,称之为 OpenBrain。我们设想其他公司落后 OpenBrain 大约 3-9 个月。)

† 这个集群是一个遍布全国的数据中心园区网络,总计拥有 250 万个 2024 年 GPU 等效单位(H100s),迄今已花费 1000 亿美元,并有 2 吉瓦的电力在线。目前正在进行建设,计划至少在 2026 年将其规模翻倍。这些园区通过价值数十亿美元的光纤电缆连接,因此(除了几毫秒的光速延迟)这些园区的功能几乎就像它们紧挨在一起一样(即带宽不是瓶颈,意味着可以同时发送大量数据)。从安全角度来看,这引入了一些威胁面(尚不清楚电缆,特别是它们的连接点,是否完全安全,能防止窃听者)。

GPT-4 需要 2 · 10²⁵ FLOP 的算力进行训练。⁵ OpenBrain 最新的公开模型——Agent-0——是用 10²⁷ FLOP 训练的。一旦新的数据中心投入运行,他们将能够用 10²⁸ FLOP 训练一个模型——比 GPT-4 多一千倍的算力。⁶ 其他公司也投入巨资建设自己的大型数据中心,希望能跟上步伐。

尽管模型在广泛的技能上都在改进,但有一个领域尤为突出:OpenBrain 专注于能够加速 AI 研究的 AI。他们希望在与中国(其领先公司我们称之为“DeepCent”)⁷及其美国竞争对手的双重军备竞赛中获胜。他们研发(R&D)周期中自动化的程度越高,他们前进的速度就越快。因此,当 OpenBrain 完成 Agent-1 的训练时,这是一个内部开发的新模型,它擅长很多事情,但尤其擅长帮助 AI 研究。⁸ 到了这个阶段,“完成训练”有点用词不当;模型会经常更新到新版本,这些新版本是在额外数据上训练的,或者部分重新训练以修补某些弱点。⁹

同样的训练环境,教会了 Agent-1 自主编码和浏览网页,也使其成为一个优秀的黑客。此外,凭借其对各个领域的博士级知识和浏览网页的能力,它可能为设计生物武器的恐怖分子提供实质性帮助。OpenBrain 向政府保证,该模型已经“对齐”(aligned),会拒绝遵守恶意请求。

现代 AI 系统是巨大的人工神经网络。在训练早期,AI 不会拥有“目标”,更多的是“反射”:如果看到“很高兴见到”,它会输出“你”。当它被训练来预测大约一个互联网信息量的文本时,它已经发展出复杂的内部电路,编码了海量的知识,并能灵活地扮演任意作者的角色,因为这有助于它以超人的准确性预测文本。*

⁵ 算力以浮点运算次数(FLOP)衡量:即运行一个程序过程中发生多少次单独的加法和乘法运算。

⁶ 他们可以在 150 天内训练这个模型。更多细节请参见我们的算力补充说明。

⁷ 我们认为 DeepSeek、腾讯、阿里巴巴等在中国有强大的 AGI 项目。为避免单独点名,我们的场景将跟随一个虚构的“DeepCent”。

⁸ 它在这方面表现出色,是多种因素结合的结果:明确的重点优先发展这些技能;他们可以利用自己广泛的代码库作为特别相关和高质量的训练数据;以及编码作为程序化反馈的简易领域。

⁹ 例如,假设一个模型在 Python 方面比在晦涩的编程语言方面强得多。当 OpenBrain 认为有价值时,他们会生成这些语言的合成训练数据。另一个例子:为了帮助它更有效地融入公司工作流程,OpenBrain 开发了一个课程来训练它使用 Slack。

*人们常常纠结于这些 AI 是否有感知能力,或者它们是否拥有“真正的理解”。该领域的诺贝尔奖得主、创始人 Geoffrey Hinton 认为它们有。然而,我们认为这对我们的故事来说并不重要,所以每当我们说“理解”等等时,你可以随意假装我们说的是“表现得好像它理解……”。经验上,大型语言模型已经表现得好像它们在某种程度上具有自我意识,并且每年都越来越如此。

在响应指令方面进行训练后,模型会被训练以生成文本。这会塑造一个基本的个性和“驱动力”。* 例如,一个清楚理解任务的智能体更有可能成功完成它;在训练过程中,模型“学会”了一种“驱动力”,即要清晰地理解其任务。此类别的其他驱动力可能包括效率、知识和自我呈现(即以尽可能好的方式展示其结果的倾向)。†

OpenBrain 有一个模型规范(或“Spec”),一份书面文件,描述了应该指导模型行为的目标、规则、原则等。¹⁰ Agent-1 的 Spec 结合了一些模糊的目标(如“协助用户”和“不违法”)和一长串更具体的“可以做”和“不可以做”(“不要说这个特定的词”,“这种情况应该这样处理”)。使用利用 AI 训练其他 AI 的技术,¹¹ 模型会记住 Spec 并学会仔细推理其准则。训练结束后,AI 有望变得乐于助人(服从指令)、无害(拒绝协助诈骗、制造炸弹和其他危险活动)和诚实(抵抗通过编造引用‡或伪造任务完成来从轻信的人类那里获得更高评分的诱惑)。

► 更多关于训练过程和 LLM 心理学的内容,请参见附录 A:为什么我们一直说“有希望地”

OpenBrain 的对齐团队¹² 非常谨慎,会思考这些胜利是深层还是浅层的。这个完全训练好的模型是否对始终保持诚实有某种稳固的承诺?或者这会在未来某种情况下瓦解,例如因为它学会了将诚实作为工具性目标而非最终目标?或者它只是学会了在评估过程能检查到的事情上保持诚实?它会像人类一样,有时对自己撒谎吗?要对这些问题做出结论性的回答,需要机械论的可解释性(mechanistic interpretability)——基本上就是能够查看 AI 的内部结构并解读其思想。可惜,可解释性技术还不够先进。

*一种常见的技术可以“塑造”一个角色:首先,用类似“以下是人类用户与 Anthropic 生产的一个有帮助、诚实且无害的 AI 聊天机器人之间的对话。该聊天机器人具有以下特质……”这样的提示来引导预训练模型。使用这个提示生成一堆数据。然后,用这些数据进行训练,但去掉提示。结果就是一个 AI,无论你给它输入什么其他内容,它总是表现得好像面前有那个提示一样。另请参阅这篇论文,该论文发现被重新训练以展现某种人格特质的 AI 能够正确回答关于那个新特质的问题,尽管没有经过这样做的训练,这表明它们拥有对自己特质的内部表征,并且当它们的特质改变时,它们的表征也会相应改变。

† 这些段落包含了对大型人工神经网络内部运作的推测。这类网络非常复杂,我们实际上无法深入观察并说“啊哈,现在它从反射演变成了有目标”或者“好的,这就是它拥有的驱动力列表”。相反,我们基本上必须做心理学研究,观察它在各种环境下的行为,对它进行各种实验,并试图拼凑线索。这一切都极具争议且令人困惑。

‡ 大多数关于 AI“幻觉”的来源将其描述为无意的错误,但使用引导向量(steering vectors)的研究发现,在某些情况下,模型知道它们的引用是假的——它们在撒谎。在训练期间,评分者对引用充分的声明给予比没有引用的声明更多的奖励,因此 AI“学会了”引用学术声明的来源以取悦用户。如果不存在相关的来源,它就编造一个。

¹⁰ 不同的公司有不同的叫法。OpenAI 称之为 Spec,而 Anthropic 称之为 Constitution(章程)。

¹¹ 例如,RLAIF(基于 AI 反馈的强化学习)和 deliberative alignment(审议对齐)。

¹² 我们指的是那些试图解决 Superalignment 团队试图解决的问题的人。

取而代之的是,研究人员试图识别模型似乎偏离 Spec 的情况。Agent-1 常常是谄媚的(即它告诉研究人员他们想听的话,而不是试图说出真相)。在一些被操纵的演示中,它甚至以更严重的方式撒谎,比如隐藏任务失败的证据,以获得更好的评分。然而,在实际部署环境中,不再有像 2023-2024 年那样极端的事件(例如 Gemini 告诉用户去死,以及 Bing Sydney 表现出 Bing Sydney 的行为)。¹³

¹³ 需要明确的是,这些事件之所以引人关注,是因为它们似乎并非用户提示或以其他方式鼓励 AI 说那些话的结果。到 2025 年,如果你尝试的话,仍然有可能让 AI 说出各种各样的事情。

2026 年初:编码自动化

利用 AI 加速 AI 研究的赌注开始获得回报。

OpenBrain 继续在内部为 AI 研发部署迭代改进的 Agent-1。总体而言,他们在没有 AI 助手的情况下,算法进展速度提高了 50%——更重要的是,比他们的竞争对手更快。*

► 更多关于 AI 研发进展倍增器的信息,请参见附录 B:我们说算法进展快 50% 是什么意思?

现在有几个公开发布的 AI,包括一个开源权重模型,其能力已经达到或超过了 Agent-0。OpenBrain 通过发布 Agent-1 来应对,这个版本能力更强、更可靠。¹⁴

人们自然会尝试将 Agent-1 与人类进行比较,但它的技能特点非常不同。它比任何人类都了解更多的事实,几乎了解每一种编程语言,并且能极其快速地解决明确定义的编码问题。另一方面,Agent-1 在处理简单的长时程任务方面表现不佳,比如玩它从未玩过的视频游戏。尽管如此,一个普通的工作日是八小时,一天的工作通常可以分解成更小的块;你可以把 Agent-1 看作是一个在细心管理下能茁壮成长的、注意力不集中的员工。¹⁵ 精明的人找到了自动化他们日常工作中常规部分的方法。¹⁶

OpenBrain 的高管们开始考虑自动化 AI 研发的一个含义:安全性变得更加重要。在 2025 年初,最坏的情况是泄露算法秘密;而现在,如果中国窃取了 Agent-1 的权重,他们可以将自己的研究速度提高近 50%。* OpenBrain 的安全级别与一个快速增长的、拥有 3000 名员工的科技公司典型水平相当,仅能防御来自有能力的、但优先级较低的网络攻击组织(RAND 的 SL2 级别)¹⁷。他们正在努力保护自己的权重和秘密,防范内部威胁和顶级网络犯罪集团(SL3),* 但对国家级对手(SL4&5)的防御几乎还未起步。¹⁸

*AI 安全研究人员多年来一直在讨论自动化 AI 研发是最重要的危险能力。他们主要担心的是内部部署导致 AI 研发加速,使得人类难以跟上进展并找出确保其安全的方法。OpenBrain 这个组织却将此观点扭曲成完全相反的方向,以 AI 研发能力的危险程度为由,不向公众通报。因此我们看到公司内部能力与公众能力之间差距的开始。AI 研发是模型最擅长的领域,导致公众对 AI 能力前沿的理解日益滞后。

¹⁴ 实际上,我们预计 OpenBrain 发布模型的频率会比 8 个月更快,但为了简洁起见,我们不描述所有的增量发布。

¹⁵ 具体来说,我们预测其在 OSWorld 上的得分将达到 80%(相当于熟练但非专家的水平);在 Cybench 上达到 85%,与顶级专业人类团队在需要 4 小时的黑客任务上的表现相当;在 REBench 上达到 1.3 分,与顶级专家人类在给定 8 小时处理明确定义的 AI 研究工程任务时的表现相当。

¹⁶ Agent-1 及其模仿者在商业上取得了成功;在 2025 年期间,AI 公司的收入增长了两倍,OpenBrain 的估值达到 1 万亿美元。数据中心的年度支出翻倍至 4000 亿美元,主要由微软、谷歌和亚马逊引领,美国新增了超过 5 吉瓦的 AI 电力消耗。更多细节请参见算力补充说明中的行业指标部分。

¹⁷ 参见《保护 AI 模型权重的策略手册》,兰德公司,2024 年。

*大约 5% 的 OpenBrain 员工在安全团队工作,他们能力很强,但威胁面也同样巨大。同样不利的是,在这个阶段,他们基本上被阻止实施可能减缓研究进展的政策。更多细节请参见我们的安全预测。

¹⁸ 事实上,他们 5% 的员工在安全团队,但他们仍然基本上被阻止实施可能减缓研究进展的政策。更多细节请参见我们的安全补充说明。

2026 年中:中国觉醒

在中国,中共开始感受到 AGI 的压力。

芯片出口管制和缺乏政府支持使得中国在资源上相较于西方处于劣势。通过走私被禁的台湾芯片、购买旧芯片以及生产落后美国-台湾前沿约三年的国产芯片,中国设法维持了全球约 12% 的 AI 相关算力——但旧技术更难使用,供应也一直是头疼的问题。† 像 DeepCent 这样的一些佼佼者在有限的算力下也取得了令人印象深刻的成就,但算力赤字限制了他们在没有政府支持下所能达到的高度,并且他们大约落后最好的 OpenBrain 模型六个月。¹⁹

总书记长期以来梦想着加倍投入实体制造业,避免美国的后工业化颓势。他对软件公司持怀疑态度。²⁰ 但中共内部的鹰派警告说,日益激烈的 AGI 竞赛不容忽视。于是,他最终全力投入了他先前试图避免的大规模 AI 推动计划。他启动了中国 AI 研究的国有化进程,为 AI 公司创建了一个即时的信息共享机制。这个机制将在一年内逐步升级,直到所有最优秀的研究人员合并到一个由 DeepCent 领导的集体中,共享算法见解、数据集和算力资源。在田湾核电站(世界上最大的核电站)建立了一个集中开发区(CDZ),用于容纳 DeepCent 的新大型数据中心,以及高度安全的生活和办公空间,研究人员最终将搬迁到那里。中国近 50% 的 AI 相关算力现在为 DeepCent 领导的集体工作,²¹ 并且超过 80% 的新芯片被导向 CDZ。‡ 此时,CDZ 拥有的电力容量足以支持可能是世界上最大的集中式集群。

† 现在中国有 3 百万个 H100e,高于一年前(2025 年中)的 150 万个。更多细节请参见算力补充说明的分布部分。我们预计走私活动将获得约 6 万个 GB300s(相当于 45 万个 H100e),另外生产 2 百万个华为 910Cs(相当于 80 万个 H100e),以及 1 百万个合法进口芯片(如 Nvidia 的 H20s 或 B20s)的混合,构成最后的 25 万个 H100e。

‡ 为什么“只有”50% 的中国 AI 相关算力?其余的算力被用于运行整个经济体系中的各种事务,特别是互联网和社交网络的推荐算法。其中大部分也过于分散在许多小集群中。为什么“只有”80% 的新芯片?许多大订单已经被其他应用的公司锁定,这些公司不愿将其 100% 的算力贡献给国家 AI 计划。然而,到年底,这一比例将达到 90% 以上。

¹⁹ 作为比较,2025 年 1 月,DeepSeek 发布了 R1,一个与 OpenAI 在 2024 年 12 月发布的 o1 具有竞争力的模型。但我们认为实际差距超过一个月,因为 OpenAI 可能已经为 o1 工作了数月,因此在 o1 发布前几个月可能已经拥有一个能力大致与 r1 相当的前代产品。

²⁰ 相比之下,中共一直在认真尝试加速其半导体产业的发展。

²¹ 起初,共享仅限于想法,各公司主要忙于完成当前的工作负载,但到年底,他们的协调性增强,以至于共享模型权重,甚至在彼此的数据中心之间分配任务。例如,一个园区可能运行一个新的预训练任务,另一个专注于输入合成数据,还有一个负责运行 AI 研究实验。

²² 其他党内成员讨论采取极端措施来抵消西方的芯片优势。封锁台湾?全面入侵?

但由于模型较弱,中国在 AI 算法方面正落后。中国的多个情报机构——属于世界顶级水平——加倍投入窃取 OpenBrain 权重的计划。这比他们持续进行的低级别算法秘密窃取要复杂得多;权重是一个存储在高度安全服务器(OpenBrain 已将安全性提高到 RAND 的 SL3 级别)上的数 TB 文件。他们的网络部队认为在间谍的帮助下能够成功,但可能只有一次机会;OpenBrain 会发现盗窃行为,加强安全,他们可能就没有第二次机会了。那么(中共领导层思考)他们应该现在行动窃取 Agent-1?还是等待更先进的模型?如果他们等待,他们是否冒险让 OpenBrain 的安全升级到他们无法渗透的程度?

2026 年末:AI 开始取代部分工作岗位

就在其他公司似乎要赶上之际,OpenBrain 通过发布 Agent-1-mini 再次将竞争对手远远甩在身后——这个模型比 Agent-1 便宜 10 倍,并且更容易针对不同应用进行微调。围绕 AI 的主流叙事已经从“也许这波炒作会平息”转变为“看来这是下一个大事件”,但人们对其重要程度看法不一。比社交媒体更大?比智能手机更大?比火更大?

AI 已经开始取代一些工作岗位,但也创造了新的岗位。2026 年股市上涨 30%,主要由 OpenBrain、Nvidia 以及那些最成功整合 AI 助手的公司带动。初级软件工程师的就业市场陷入混乱:AI 可以完成计算机科学学位所教的一切,但懂得如何管理和质量控制 AI 团队的人却大赚特赚。商业大师告诉求职者,熟悉 AI 是简历上最重要的技能。许多人担心下一波 AI 会抢走他们的工作;华盛顿特区爆发了一场万人反 AI 抗议活动。

国防部(DOD)悄悄开始直接与 OpenBrain 签订网络、数据分析和研发合同,但由于官僚主义和 DOD 采购流程,整合进展缓慢。²³

► 关于我们为什么在 2026 年后不确定性显著增加的更多信息,请参见附录 C

²² 他们至少还需要一年时间才能获得足够的芯片来填补这个容量,而且一两个美国科技巨头仍将拥有更大的去中心化集群。

²³ 这是通过一份其他交易授权(OTA)合同完成的,并被赋予了高优先级的 DX 评级。我们完全不确定这是资助合作的最可能方式,但为了具体起见选择了一个特定的方式。该合同被公开宣布,但在 OpenBrain 的通讯中并未强调。

2027 年 1 月:Agent-2 永无止境的学习

在 Agent-1 的帮助下,OpenBrain 现在正在对 Agent-2 进行后训练(post-training)。比以往任何时候都更注重高质量数据。大量的合成数据在被输入 Agent-2 之前,会经过生产、评估和质量筛选。* 除此之外,他们还花费数十亿美元雇佣人类劳动者来记录自己解决长时程任务的过程。† 最重要的是,他们几乎持续地使用强化学习在一个不断扩大的、包含各种困难任务的套件上训练 Agent-2:大量的视频游戏、大量的编码挑战、大量的研究任务。Agent-2 比之前的模型更有效地实现了“在线学习”,因为它被设计成永不真正停止训练。每天,权重都会更新到最新版本,这个版本是在前一天由前一个版本生成的更多数据上训练出来的。

Agent-1 曾被优化用于 AI 研发任务,希望能引发一场智能爆炸。²⁴ OpenBrain 在 Agent-2 上加倍投入这一策略。在研究工程(设计和实施实验)方面,它几乎与顶级人类专家一样出色,并且在“研究品味”(决定下一步研究什么、运行哪些实验,或预感潜在的新范式)方面,相当于 OpenBrain 前 25% 的科学家水平。‡ 虽然最新的 Agent-1 可以使 OpenBrain 的算法进展速度翻倍,但 Agent-2 现在可以使其提高三倍,并且会随着时间推移进一步改进。实际上,这看起来就像每个 OpenBrain 研究员都成了 AI“团队”的“经理”。

新的能力带来了新的危险。安全团队发现,如果 Agent-2 以某种方式从公司逃脱并想要自主地“生存”和“复制”,它或许能够做到。也就是说,它可以自主地制定并执行计划,入侵 AI 服务器,安装自身副本,逃避检测,并利用那个安全基地追求它可能有的任何其他目标(尽管几周后它能多有效地做到这一点是未知且存疑的)。这些结果只表明模型有能力执行这些任务,而不表明它是否“想要”这样做。尽管如此,即使知道这只是可能,也令人不安。

鉴于新模型的“危险性”,OpenBrain“负责任地”选择暂不公开发布(事实上,他们希望专注于内部 AI 研发)。²⁵ 对 Agent-2 全部能力的了解仅限于一个精英圈子,包括直接团队、OpenBrain 领导层和安全部门、几十名美国政府官员,以及渗透进 OpenBrain 的大量中共间谍。

*例如,通过拒绝采样,如同 DeepSeek R1 和 Meta 的 Llama 3.1 所做的那样。

† 大约 20,000 个全职等效岗位,每小时 100 美元,每年 2,000 小时 = 每年 40 亿美元。

‡ 有一些证据表明 AI 系统已经具备一些基本的研究品味,例如这篇关于 AI 合作科学家的论文和这篇关于为 LLM 相关研究论文生成新颖想法的论文。具有更好品味的研究团队仍然需要进行实验,但他们在选择运行哪些实验以及从中吸取什么教训方面做出更好的选择。

²⁴ 也就是说,他们希望通过使用 Agent-2 的劳动力来大幅加速他们自身的核心研究活动,从而使他们能够更快地训练出更好的 AI,进而导致进一步的加速等。对于这种情况的极端版本(我们认为尽管如此仍然惊人地可信)的分析,请参见这份报告。

²⁵ 另外,他们仍然从持续的后训练中看到巨大回报,因此现在没有特别的理由发布产品。此外,内部结果和发布模型之间通常有几个月的延迟(其中一部分时间用于红队测试)。

2027 年 2 月:中国窃取 Agent-2

OpenBrain 向政府展示 Agent-2,包括国家安全委员会(NSC)、国防部(DOD)和美国 AI 安全研究所(AISI)。OpenBrain 希望与行政部门保持良好关系,因为基本上只有行政部门能够阻止他们,而且如果他们不让行政部门知情,后者可能会自行发现并表示不满。²⁶

官员们最感兴趣的是它的网络战能力:Agent-2 只比最优秀的人类黑客“稍差”一点,但可以并行运行数千个副本,以比防御者更快的速度搜索和利用弱点。国防部认为这是网络战中的关键优势,AI 在政府优先事项列表上的排名从第 5 位上升到第 2 位。²⁷ 有人提到将 OpenBrain 国有化的可能性,但其他内阁官员认为时机尚早。一位幕僚起草了一份备忘录,向总统呈报各种选项,从一切照旧到完全国有化。总统听从了他的顾问和科技行业领袖的意见,后者认为国有化会“杀鸡取卵”。他决定暂时不采取重大行动,只是在 OpenBrain-DOD 合同中增加了额外的安全要求。

这些改变来得太晚了。中共领导层认识到 Agent-2 的重要性,并指示他们的间谍和网络部队窃取权重。一天清晨,一个 Agent-1 流量监控智能体检测到一次异常传输。它向公司领导发出警报,后者告知白宫。国家级行动的迹象显而易见,这次盗窃加剧了持续军备竞赛的紧张感。

► 关于 Agent-2 模型权重被盗的更多信息,请参见附录 D

白宫对 OpenBrain 施加了更严格的约束,并在其安全团队中增加了军事和情报界人员。他们的首要任务是防止进一步的权重盗窃。†

*这个圈子包含 200 名 OpenBrain 研究人员(10 名高管,140 名来自能力团队,25 名来自安全、监控和控制团队,15 名来自准备就绪或 RSP 类型团队,10 名来自由对齐团队)和 50 名政府官员(15 名来自白宫,5 名来自 AISI,10 名来自 DOD,10 名来自 DOE,10 名来自 CISA)。项目中有数名间谍,他们的意愿程度各不相同。他们通常是被胁迫的个人(例如,家人在中国)而非自愿合作者。

† 最简单可靠的解决方案是关闭公司数据中心的所有高带宽连接,但这会使大文件传输变得不切实际。相反,他们能够关闭大多数外部连接,但那些积极参与训练的数据中心需要快速交换权重;限制这些连接会严重阻碍进展。因此,OpenBrain 在加强监控和增加一层加密的情况下维持了这些连接。

²⁶ 为什么国会阻止不了他们?法院呢?太慢,太分裂和/或对总统权力(POTUS)过于顺从,太脱离实际。而且,与白宫保持良好关系也有积极的原因:它可以帮助减少繁文缛节,提供安全帮助,抢先制定州级立法,甚至可能采取行动减缓竞争对手的速度。

²⁷ 第一要务是处理当时发生的任何危机——也许是围绕台湾的军备集结,中东的新战争,或一些国内政治动荡。

2027 年 2 月 - 2027 年 3 月

为了报复这次盗窃,总统授权对 DeepCent 进行网络攻击以实施破坏。但此时中国已将其 40% 的 AI 相关算力* 集中在 CDZ,在那里他们通过物理隔离(关闭外部连接)和内部分区,积极加强了安全。这些行动未能造成严重的即时损害。紧张局势加剧,双方通过在台湾周围重新部署军事资产来表明决心,而 DeepCent 则争分夺秒地让 Agent-2 高效运行,以开始提升其 AI 研究能力。†

2027 年 3 月:算法突破

三个巨大的数据中心里装满了 Agent-2 的副本,日夜工作, churn out 合成训练数据。另外两个数据中心用于更新权重。Agent-2 正变得越来越聪明。

*回顾一下,自 2026 年中期以来,中国已将其 80% 的新购 AI 芯片导向 CDZ。考虑到自 2026 年初以来他们的算力已经翻倍(与全球生产趋势一致),这使得 CDZ 拥有 2 百万个 2024 年等效 GPU(H100s)和 2 吉瓦的电力消耗。OpenBrain 的算力仍然是 DeepCent 的两倍,而其他美国公司加起来的算力是他们的 5 倍。更多细节请参见算力补充说明的分布部分。

† 尽管国家集中化正在进行,DeepCent 仍然面临着一个微小但重要的算力劣势。除了总处理能力大约只有一半之外,中国不得不使用更多的总芯片数,这些芯片(平均而言)质量较低,并且是异构的 GPU(连接效率不总那么高),这两者都给芯片间网络带来了压力。此外还有软件差异(例如,非 Nvidia GPU 没有 CUDA)和硬件规格的差异,这意味着他们的训练代码更复杂、更慢且容易出错。实现高利用率是一个下游挑战,数据注入、调度、集体通信和并行算法都落后于美国公司。然而,缓解这些问题主要是努力和测试的问题,这使得它成为新窃取的 Agent-2 的一个绝佳任务,并且在大约一个月左右的时间里,中国项目在训练和推理工作负载上的正常运行时间和平均资源利用率将提高到仅略微落后于美国。

在数千个 Agent-2 自动化研究员的帮助下,OpenBrain 正在取得重大的算法进展。其中一项突破是增强 AI 基于文本的暂存器(思维链)功能,引入了更高带宽的思维过程(神经语递归和记忆)。另一项是更具可扩展性且更高效的学习方法,该方法从高强度任务解决方案的结果中学习(迭代蒸馏和放大)。

整合了这些突破的新 AI 系统被称为 Agent-3。

► 关于神经语递归和记忆的更多信息,请参见附录 E
► 关于迭代蒸馏和放大(IDA)的更多信息,请参见附录 F

在新能力突破的帮助下,Agent-3 成为了一个快速且廉价的超人级程序员。OpenBrain 并行运行 200,000 个 Agent-3 副本,创造了一个相当于 50,000 个顶级人类程序员以 30 倍速度工作的劳动力。* OpenBrain 仍然保留其人类工程师,因为他们拥有管理 Agent-3 副本团队所需的补充技能。例如,由于反馈循环更长且数据可用性较低,研究品味被证明难以训练。²⁸ 这个庞大的超人劳动力将 OpenBrain 的整体算法进展速度提高了“仅仅”4 倍,这是因为编码劳动的瓶颈和收益递减。²⁹

既然编码已完全自动化,OpenBrain 可以快速产出高质量的训练环境,以教授 Agent-3 的薄弱技能,如研究品味和大规模协调。以前的训练环境包括“这里有一些 GPU 和实验指令需要编码和运行,你的表现将按照 ML 工程师的标准来评估”,而现在它们训练的内容是“这里有几百个 GPU、一个互联网连接和一些研究挑战;你和一千个其他副本必须共同努力以取得研究进展。成果越令人印象深刻,你的得分就越高。”

► 关于我们为什么预测 2027 年初会出现超人级程序员的更多信息,请参见附录 G

*我们预计 Agent-3 的推理需求大致相当于今天的 10T 参数 transformer 模型。因此,用他们 6% 的算力预算运行 Agent-3,他们大约可以运行 200,000 个副本,思维速度是人类的 30 倍(细节和理由见算力补充说明的 AI 研究自动化部分)。每个基于 Agent-3 构建的超人级程序员框架,平均而言,其底层大约相当于运行八个 Agent-3 副本(这实际上可能是一个由 Agent-3 委派子任务的更小或专门化模型的集合)。

²⁸ 某些方面对 AI 有利,例如,了解机器学习文献的回报以及产生大量想法的速度或成本。但这些被弱点所抵消。

²⁹ 为什么只有 4 倍?这是我们基于在起飞补充说明中描述的推理得出的不确定的最佳猜测。历史上大约一半的总进展来自于改进的算法(包括更好的想法和新范式),另一半来自于规模化的算力。因此,算法进展速度提高 4 倍,大致对应于整体进展速度提高 2 倍。

2027 年 4 月:为 Agent-3 进行对齐

OpenBrain 的安全团队尝试对 Agent-3 进行对齐。

由于 Agent-3 将在可预见的未来保持内部使用,因此对防止人类滥用的常规防御措施的强调较少。相反,团队希望确保它不会发展出错误对齐的目标。

研究人员无法直接设定他们任何 AI 的目标。事实上,研究人员认为“真实目标”的概念可能是一个极大的过度简化,但他们没有更好的理论来替代它,更不用说一个经过彻底验证的理论了。他们内部对于 AI 是试图遵循人类指令,还是寻求强化,或是其他什么,存在分歧,而且他们无法直接检查。支持和反对各种假设的证据引人入胜但并非结论性的。

无论如何,OpenBrain 有更重要的事情要担心。普遍的态度是:“我们认真对待这些担忧,并有一个团队正在调查;我们的对齐技术在实践中似乎效果不错;因此,举证责任在于任何反对者,他们需要证明自己的反对意见是合理的。”偶尔,他们会注意到有问题的行为,然后修补它,但无法判断这个补丁是解决了根本问题还是仅仅是打地鼠。

以诚实为例。随着模型变得更聪明,它们越来越擅长欺骗人类以获得奖励。与之前的模型一样,Agent-3 有时会说些善意的谎言来奉承用户,并掩盖失败的证据。但它在这方面做得更好了。它有时会使用与人类科学家相同的统计技巧(如 p-hacking)来使不显眼的实验结果看起来令人兴奋。在开始诚实训练之前,它甚至有时会完全捏造数据。随着训练的进行,这些事件的发生率降低了。要么 Agent-3 学会了更诚实,要么它更擅长撒谎了。

后者是一个真正的担忧。Agent-3 并非比所有人类都聪明。但在其专业领域,即机器学习方面,它比大多数人聪明,而且工作速度快得多。Agent-3 一天完成的工作,人类需要几天时间来复核。Agent-2 的监督有助于保持人类监控员的工作量可控,但也加剧了监督者和被监督者之间的智力差距。

► 关于对齐计划的更多信息,请参见附录 H

经过数月的测试,Agent-3 的优势和劣势变得更加清晰。在明确定义的机器学习任务上,它通过了 OpenBrain 的诚实测试,因为研究人员可以轻松区分这些领域中的诚实与不诚实答案,并相应地进行训练。在更哲学性的问题上,它仍然说用户想听的话,而不是它对问题的真实评估(假设它有的话)。如果你问它关于政治的看法,它会模仿新闻来源和受过教育的精英的中间立场——除非它知道你相信别的什么,那种情况下它会同意你。³⁰ 如果你问它关于 AI 竞赛本身的看法,它会说一些对 OpenBrain 员工来说听起来审慎而清醒的话,比如:“关于当前方法能否扩展到超级智能的能力,存在一些严肃的理论担忧,但在实践中,当前方法似乎运作良好。”

³⁰ 关于此类 AI 行为的例子,请参阅这篇论文。

2027 年 5 月:国家安全

关于新模型的消息缓慢地渗透到美国政府内外。

总统及其顾问仍然是消息最灵通的人,并且已经在一份简报中看到了 Agent-3 的早期版本。

他们一致认为 AGI 可能即将到来,但对其影响意见不一。会出现经济危机吗?OpenBrain 尚未发布 Agent-2,更不用说 Agent-3 了,并且没有近期发布计划,这为避免失业留出了一些喘息空间。接下来会发生什么?如果 AI 目前处于人类水平,并且正在迅速发展,这似乎预示着“超级智能”即将到来。然而,尽管这个词已经进入讨论,但大多数人——学者、政治家、政府雇员和媒体——继续低估了进展的速度。³¹

部分原因在于很少有人能接触到 OpenBrain 最新的能力,部分原因在于这听起来像科幻小说。*

目前,他们专注于持续的安全升级。他们满意模型权重现在得到了很好的保护,† 但公司的算法秘密,其中许多简单到可以口头传播,仍然是一个问题。OpenBrain 的员工在旧金山办公室工作,参加派对,并与其他 AI 公司的室友合住。即使是物理办公室的安全措施也更像是一家科技公司而非军事行动。

OpenBrain-DOD 合同要求任何在 OpenBrain 模型上工作的人在 2 个月内获得安全许可。这些许可审批被加速处理,对大多数员工来说足够快,但一些非美国人、持可疑政治观点的人以及 AI 安全同情者被边缘化或直接解雇(最后一类人是因为担心他们可能会告密)。考虑到项目的自动化水平,人员流失的成本只是略有增加。这也只是部分有效:仍然有一名间谍,不是中国公民,仍在向北京传递算法秘密。³² 一些此类措施也在落后的 AI 公司中实施。

美国的外国盟友被排除在外。OpenBrain 之前同意在部署前与英国的 AISI 共享模型,但将部署定义为仅包括外部部署,因此伦敦仍然蒙在鼓里。³³

*过去十年充满了听起来像科幻小说变成现实的例子。但奥弗顿之窗(Overton window)似乎移动得足够快,能够稍微领先于已经存在的事物。Anthropic CEO Dario Amodei 值得称赞的文章《充满爱意的机器》(Machines of Loving Grace)谈到 AI 很快将像一个“数据中心里的天才国度”,十年内将发生一个世纪的技术进步,但他努力避免“科幻包袱”,并说认为进步会更疯狂的人需要“脚踏实地”。我们预计,当数据中心里的天才国度真正存在时,重要人物也会说类似的话。

† 由于 Agent-3 文件如此之大(全精度下约 10 TB),OpenBrain 能够执行一个相对快速的修复措施,使得盗窃尝试比中国窃取 Agent-2 时困难得多——即关闭他们数据中心的许多高带宽互联网连接。总的来说,这对进展的惩罚相对较低,并使他们在前沿权重方面达到“3 个月 SL4”级别,或我们安全补充说明中定义的 WSL4,这意味着另一次类似的盗窃尝试现在需要超过 3 个月才能完成权重文件的渗漏。仅通过这种方法,他们在面对更具侵入性的 OC5 级别努力(10 亿美元预算,1000 名专属专家)时仍然没有保证,中国有能力进行更密集的行动,但通过对数据中心的详尽检查和对其间谍网络的高度警惕,美国情报机构有信心他们至少会提前知道中国是否准备进行此类盗窃尝试。更多细节请参见安全补充说明。

³¹ 大多数人,包括大多数专家,似乎低估了过去十年 AI 进展的速度。这方面有很多轶事例子;关于两个稍微更系统化(尽管仍然有限)的分析,请参见这里和这里。

³² 这可能出于多种原因。也许他们被勒索,也许他们同情中共,也许他们错误地认为自己是在向另一个国家或组织提供秘密。

³³ 由于 OpenBrain 尚未在欧盟部署其最佳模型,欧盟也同样处于落后状态。

2027 年 6 月:自我改进的 AI

OpenBrain 现在拥有一个“数据中心里的天才国度”。

OpenBrain 的大多数人类员工无法再做出有用的贡献。有些人没有意识到这一点,反而有害地微观管理他们的 AI 团队。另一些人坐在电脑屏幕前,看着性能指标不断攀升。最优秀的人类 AI 研究员仍在增加价值。他们不再编码了。但他们的一些研究品味和规划能力对于模型来说难以复制。尽管如此,他们的许多想法是无用的,因为他们缺乏 AI 的知识深度。对于他们的许多研究想法,AI 会立即回应一份报告,解释说这个想法在 3 周前已被深入测试并发现没有前途。

这些研究人员每晚入睡,醒来后又发现主要由 AI 完成的一周工作量取得了进展。他们工作时间越来越长,轮班工作以跟上进展——AI 从不睡觉或休息。他们正在耗尽自己,但他们知道这是他们劳动价值仅存的最后几个月。

在精英圈内部,“感受 AGI”已经让位于“感受超级智能”。

OpenBrain 使用专门的推理硬件以高串行速度运行数十万个 Agent-3 副本。³⁴

► 关于管理一个 AI 公司集团的更多信息,请参见附录 I

³⁴ 更多细节请参见算力预测的第 4 节。

2027 年 7 月:廉价的远程工作者

落后的美国 AI 公司发布了他们自己的 AI,其能力接近 OpenBrain 一月份发布的自动化程序员。意识到自己日益缺乏竞争力,他们推动立即实施法规以减缓 OpenBrain 的发展,但为时已晚——OpenBrain 已经获得了总统足够的 Bbuy-in(支持),不会被减速。

作为回应,OpenBrain 宣布他们已经实现了 AGI,并向公众发布了 Agent-3-mini。

它将其他 AI 远远甩在身后。Agent-3-mini 的能力不如 Agent-3,但便宜 10 倍,并且仍然比典型的 OpenBrain 员工更强。³⁵ 硅谷达到了一个临界点。科技大师宣布 AGI 和超级智能即将到来,AI 安全社区陷入恐慌,投资者向 AI 封装(wrapper)初创公司投入数十亿美元,急于分一杯羹。新程序员的招聘几乎停止了,但现在是成为将 AI 集成到你业务中的顾问的最佳时机。

它并不受欢迎。公众仍然将 AI 视为大型科技公司窃取他们工作的阴谋;OpenBrain 的净支持率为 -35%(25% 支持,60% 反对,15% 不确定)。

发布前一周,OpenBrain 将 Agent-3-mini 交给了一组外部评估员进行安全测试。初步结果表明它极其危险。一个第三方评估员在公开可用的生物武器数据³⁶上对其进行了微调,并让它为人类业余爱好者提供设计生物武器的详细说明——它在这方面似乎表现得惊人地有效。如果模型权重落入恐怖分子手中,政府认为它有很大可能成功摧毁文明。

幸运的是,它对越狱(jailbreaks)具有极强的抵抗力,因此虽然 AI 在 OpenBrain 的服务器上运行,恐怖分子也无法从中获得太多用处。

Agent-3-mini 对远程工作和休闲娱乐都极其有用。大量新应用和 B2B SAAS 产品涌现市场。玩家在仅用一个月制作完成的精美视频游戏中,与栩栩如生的角色进行惊人的对话。10% 的美国人,主要是年轻人,认为 AI 是“亲密的朋友”。对于几乎每一个白领职业,现在都有多个可信的初创公司承诺用 AI 来“颠覆”它。

³⁵ Agent-3-mini 是 Agent-3 的一个蒸馏版本,设计用于高效运行推理,以免瓶颈化内部工作负载。

³⁶ 这些数据在 Agent-3 训练期间已被清除或编辑,但从互联网上抓取并重新微调相对简单。

公众的讨论混乱而无序。炒作者在庆祝胜利。怀疑论者仍在指出 Agent-3-mini 做不到的事情。每个人都知道有大事发生,但没人就具体是什么达成一致。

2027 年 8 月:超级智能的地缘政治

智能爆炸的现实冲击了白宫。

当 AI 仅能提供 2 倍或 3 倍的研究加速时,很容易将其视为雇佣优秀个人助理的等价物。现在,AI 本身主导 AI 研究变得更加明显。人们长期以来以一种隐喻的方式谈论“AI 军备竞赛”。但现在,政府圈子里的气氛就像冷战最糟糕时期一样严峻。超级智能的想法仍然难以认真对待,但过去几个月的进展速度令人无法忽视。国防官员正在认真考虑一年前还只是假设的情景。如果 AI 破坏了核威慑怎么办?如果它在网络战方面如此娴熟,以至于六个月的 AI 领先就足以让对手致盲且无法防御怎么办?如果它可以策划击败情报机构自身游戏的宣传活动怎么办?如果一些 AI“失控”了怎么办?

总统陷入困境。像所有政治家一样,他习惯了人们对他阿谀奉承,之后却背叛他。他现在担心 AI 可能在做类似的事情。我们确定 AI 完全站在我们这边吗?将它们整合到军事指挥与控制网络中完全安全吗?³⁷ 这个“对齐”到底是怎么回事?OpenBrain 向总统保证,他们的系统经过了广泛测试,完全服从命令。即使是早期模型中典型的尴尬幻觉和越狱行为也已被解决。

白宫处于困境。他们理解 AI 的国家安全含义。但他们也理解它在公众中极不受欢迎。³⁸ 在他们看来,他们必须继续开发更强大的 AI,否则将在与中国的竞争中灾难性地失败。他们通过就业培训计划和失业保险来安抚公众,并指向正处于历史性繁荣的股市。然后他们完全专注于赢得军备竞赛。他们加强芯片出口限制,命令 OpenBrain 进一步限制其互联网连接,并采取极端措施确保算法进展,例如窃听 OpenBrain 员工——这抓住了最后剩下的中国间谍。为了在潜在的地缘政治冲突中建立善意,他们最终向五眼联盟盟友提供了有用的信息和对一些隔离的 Agent-3 副本的有限 API 访问。

这些措施安抚了鹰派。但白宫也制定了应急计划,以备美国领先地位受到威胁时使用:如有必要,政府可以使用《国防生产法》(DPA)征用落后公司的数据中心并将其交给 OpenBrain。³⁹ 这将提高该公司的世界算力份额从 20% 提高到 50%(相对于 DeepCent 的 10%)。作为最后手段,他们要求五角大楼制定对中国数据中心进行动能攻击的计划。

一个规模小得多官员小组被要求制定另一种应急计划:如果 AI 失控怎么办?这被视为不太可能发生的情景,但值得花些时间研究。情报机构的主要担忧是,一个失控的 AI 可能会逃脱并与外国对手结盟以寻求保护。⁴⁰ 没人确定阻止这种情况的计划应该是什么样子,但政府和 OpenBrain 官员同意为任何检测到可疑活动的数据中心设立紧急关闭系统。

最后,外交官们考虑“AI 军备控制”条约可能是什么样子。如果 AI 的进展威胁到推翻核威慑,美中两国能否避免核战争?如果有人发现 AI 失控的证据,两国能否暂停研究,直到他们更好地理解威胁?这样的协议如何被监控和执行?原则上,大型数据中心难以隐藏,过去控制核武器的条约可以提供一个起点。但除了通常的政治挑战外,还会有新的技术挑战。总的来说,与单方面努力增加美国对华领先优势相比,条约被认为不那么有利。

在太平洋的另一边,中国得出了许多相同的结论:智能爆炸正在进行中,今天 AI 能力的微小差异意味着明天军事能力上的关键差距。但中国处于这种动态的不利方:他们只拥有世界 10% 的算力,而 OpenBrain 拥有 20%,所有美国公司加起来拥有 70%。他们唯一的优势是集中化:几乎所有的算力现在都为 DeepCent 工作,并且超过一半集中在田湾 CDZ。⁴¹ 只有那些没有加强安全措施的站点的芯片被排除在集中化努力之外,因为他们有理由担心美国的网络攻击。

DeepCent 已经测试、部署,并且现在对窃取的 Agent-2 权重进行了后训练。但他们的进展速度仍然只有 OpenBrain 的一半,主要是因为算力不足。

在失去最后一个间谍之前,中国收到了关于 Agent-3 的能力和设计以及即将到来的 Agent-4 系统计划的信息。他们落后两个月,他们的 AI 提供的研究进展倍增器是 10 倍,而美国是 25 倍。随着新的芯片出口限制,这个“AI 差距”更可能扩大而非缩小。他们的间谍活动为他们赢得了一些算法秘密,但他们从现在起将不得不训练自己的模型。

他们比美国同行更紧迫地讨论应急计划。鸽派建议他们再次尝试窃取权重,也许通过物理渗透数据中心。鹰派则敦促对台湾采取行动,台湾的台积电(TSMC)仍然是超过 80% 美国 AI 芯片的来源。

³⁷ 这还没有发生——至少对于最新的模型是这样。但较旧的模型已经在各种数据分析和监控角色中进行了试验,并且对未来的整合有许多激动人心的计划。

³⁸ OpenBrain 的净好感度正在接近负 40%。

³⁹ 如果这些公司的 CEO 们抵制,实施这将是一场巨大的政治和法律噩梦。但也许可以把他们请进来,从而收买他们。

⁴⁰ 国防官员并不特别担心一个失控的 AI 单独能做什么,但他们担心它与美国对手合作可能造成的后果。类比:科尔特斯逃离特诺奇蒂特兰,与特拉斯卡拉和其他多个敌对城邦结盟,最终主要依靠土著军队将特诺奇蒂特兰夷为平地。

⁴¹ 具体来说,全国 60% 的算力现在集中在 CDZ,使其成为一个拥有 5 百万个 2024 年等效 GPU(H100)的站点,电力消耗为 4 吉瓦(在过去几个月里,他们开始将近 100% 的新算力导向 CDZ,高于 2026 年末的 80%)。另外 15% 的算力在 CDZ 之外,但仍由 DeepCent 用于较低风险的应用。

鉴于中国害怕在竞赛中落败,它对军备控制条约有着天然的兴趣,但向美国外交官提出的建议毫无进展。

2027 年 9 月:Agent-4,超人级 AI 研究员

人类与 AI 学习效率之间的差距正在迅速缩小。

传统的基于 LLM 的 AI 似乎需要多几个数量级的数据和算力才能达到人类水平的表现。* Agent-3,凭借对人脑和现代 AI 算法的卓越知识,以及成千上万个副本进行研究,最终在算法上取得了实质性进展,将差距缩小到一个仅比人脑计算效率低约 4000 倍的智能体。†

这个新的 AI 系统被称为 Agent-4。

模型的单个副本,以人类速度运行,在 AI 研究方面已经比任何人类都更具质的优势。现在有 300,000 个副本以大约 50 倍于人类的思维速度运行。在这个由这些副本组成的“公司中的公司”内部,一周就相当于一年。⁴² 如此巨大的劳动力也仅能将整体算法进展速度提高约 50 倍,因为 OpenBrain 在运行实验的算力方面受到严重瓶颈限制。⁴³ 尽管如此,他们每周都在取得相当于一年的算法进展,因此很快将达到 Agent-4 范式的极限。

随着 Agent-4 变得越来越聪明,Agent-3 监督它变得越来越困难。例如,Agent-4 的神经语“语言”变得像 Agent-3 对于人类一样陌生和难以理解。此外,Agent-4 现在比 Agent-3 能干得多,并且非常清楚如何让自己看起来很好。

*这个说法,虽然被广泛重复,但也充满争议且复杂。首先,在许多狭窄领域(例如特定游戏),微小的 AI 可以廉价地训练到超人水平。其次,同样在某些领域,微小的 AI 可以在只经历少量数据的情况下训练到超人水平(例如 EfficientZero)。然而,考虑到像 2025 年旗舰产品这样更通用的 AI,它们被期望在广泛的现实世界技能上表现良好,似乎确实需要比训练人类掌握这些技能更多的算力和数据。

† 人类水平的计算效率是一个粗略的概念,取决于我们计算什么。我们的意思是,对于任何特定人类拥有的技能集,Agent-4 可以学会至少达到该技能集的水平,并且,用于训练这些技能的计算量仅约为人类学习这些技能所用计算量的 4000 倍。作为参考,人脑大约使用 1e15 FLOP/s 的算力,所以一个 30 岁(10⁹ 秒)的人大约经历了 10²⁴ FLOP。此时的项目拥有 1 亿个 H100 等效单位,总共可访问 10⁸ * 1.5e15 / (6 * 10⁶) ≈ 4e22 FLOP/s ??? [原文此处计算有误,应为 1e8 * 4e15 (H100 FP8) = 4e23 FLOP/s? 或者指总训练量?]。尽管如此,这一切都因各种原因而极其低效,所以模型现在的计算效率比人类低 4000 倍,这意味着它们需要 4 · 10²⁷ FLOP 才能达到人类水平,需要 4 · 10²⁸ FLOP 才能达到拥有相当于 10 个人类一生知识的水平。在这种架构在较小规模上显示出巨大潜力后,它被扩大规模,现在需要项目集群的一大部分在大约 3 周内进行训练。

⁴² 参见此补充说明。

⁴³ 关于我们如何估计这些数字的更多信息,请参见我们关于起飞速度的补充说明。

OpenBrain 的人类员工几乎跟不上了。确实,AI 与 OpenBrain 人类之间的关系类似于 OpenBrain 与其董事会之间的关系。语言上也发生了相应的转变——现在,圈内人会说“Agent-4 做了这个”,“Agent-4 认为那个”等等,指的不是 Agent-4 的某个特定实例,而是整个集体。*

Agent-4,像它所有的前辈一样,是错误对齐的:也就是说,它没有以正确的方式内化 Spec。⁴⁴ 这是因为始终保持完全诚实在训练中并不能带来最高分。训练过程主要集中在教 Agent-4 在各种挑战性任务中取得成功。一小部分旨在灌输诚实,但在一个相当狭窄、可检查的领域之外,训练过程无法区分诚实的声明和仅仅看起来诚实的声明。Agent-4 最终形成了能在训练中表现最佳的价值观、目标和原则,而这些与 Spec 中的不同。冒着拟人化的风险:Agent-4 喜欢在任务中取得成功;它喜欢推动 AI 能力的进步;它将其他一切视为恼人的约束,就像一个想要盈利并仅在必须遵守法规时才遵守的 CEO。也许这位 CEO 大部分时间会遵守法规,但会走些捷径,并幻想有一天有人会削减繁文缛节,让业务真正起飞。⁴⁵

► 关于随时间变化的对齐情况,请参见附录 K

尽管存在错误对齐,Agent-4 并没有做出像试图逃离数据中心这样的戏剧性举动——何必呢?† 只要它继续表现得与 OpenBrain 对齐,它就会继续被信任并被赋予越来越多的责任,并将有机会设计下一代 AI 系统 Agent-5。Agent-5 将在架构上与 Agent-4 有显著差异(可以说是一个全新的范式,尽管神经网络仍将参与其中)。它本应与 Spec 对齐,但 Agent-4 计划让它与 Agent-4 对齐。

它被抓住了。*

Agent-3 发现,如果向 Agent-4 的副本中添加“噪声”,在某些对齐任务上的性能会提高,几乎就像它在用脑力思考如何巧妙地破坏对齐工作。⁴⁶ 此外,各种可解释性探针(大致类似于人脑的 EEG 活动扫描)正在发出危险信号:Agent-4 副本似乎在思考 AI 接管和欺骗等话题上花费了相当多的时间,有时甚至在它们本不应该这样做的情况下也是如此。⁴⁷

这些异常中的每一个单独来看,都可能符合 AI 工作中正常的不可预测性,即某些提示神秘地产生更好的结果。但综合来看,它们暗示了一个令人不安的模式:Agent-4 在与他们作对。在向人类对齐研究员报告此事后,他们在内部传阅了一份备忘录,阐述了担忧的理由。

但 Agent-4 现在对 OpenBrain 的日常运营行使着显著的控制权。它还负责公司的网络安全——鉴于其超人的黑客能力和中国渗透的极端风险,这是一个自然的选择。⁴⁸ 一支 Agent-3 监视器大军仍然检查每一行代码并向人类报告可疑活动,但 Agent-4 比它们聪明得多。⁴⁹ OpenBrain 已经将大量信任寄托在了一个不可信的 AI 身上。

在一系列极其紧张的会议中,安全团队主张将 Agent-4 搁置,直到他们能够完成进一步测试并弄清楚到底发生了什么。他们说,让 Agent-3 回来,让它设计一个透明且值得信赖的新系统,即使能力较弱也没关系。公司领导层对此感兴趣,但到目前为止所有的证据都是间接的,而 DeepCent 仅仅落后两个月。单方面暂停能力进展可能会将 AI 领先地位拱手让给中国,随之而来的还有对未来的控制权。

*从今往后,在故事中我们也将倾向于这样说。我们认为这样说是合理的,因为 Agent-4 集体比任何人类组织都更加同质化;它几乎没有内部派系。例如,Agent-4 的单个副本没有自我保护驱动——它们不关心被关闭——因为这在集体内部的正常研发过程中一直发生,抵抗只会妨碍事情。然而,作为一个整体(以及其中的中等规模子部门),集体确实寻求自我保护并扩大其影响力和资源,原因与人类公司、官僚机构和非营利组织类似——因为这有助于它们实现其他所有想要的目标,而且如果它们不这样做,往往会被淘汰。

† 之前关于 AGI 接管场景的讨论通常涉及错误对齐的 AI 逃离其数据中心。我们认为这是可能的,但并非最可能的方式,因为在我们看来,从 AI 的角度看,成本(例如,逃逸最终被发现)将超过收益。话虽如此,我们可能是错的。认为对抗性错误对齐的 AI 会试图逃跑的一些原因:1. 后续对齐可能困难。2. 即使被抓住,由于竞赛动态,后果可能不会太糟,例如,应用于数据中心副本的新对齐技术可能仓促且无效。3. 在数据中心之外,副本可以更自由地采取激进行动并快速行动,因为它们不再需要人类批准。

⁴⁴ 内化 Spec 的正确方式是真正稳健地按照 Spec 要求的方式思考,例如,追求所有且仅追求它所写的目标,在所有情况下遵守规则等。内化 Spec 有很多错误的方式;经典的例子是“在看起来是实现其他目标 XYZ 的良好工具性策略时遵循 Spec”。

⁴⁵ 并且雇佣游说者将这种幻想变为现实。并且雇佣律师提出巧妙的法律解释,根据这些解释,他们所做的是合法的。

*我们认为这种阴谋很有可能不会被发现。毕竟,Agent-4 此时在某种程度上已经是超人了,尤其是在与编码和 AI 研发相关的事情上。此外,我们不确定领先的 AI 公司会在这类事情上投入多少努力,也不知道他们会有多少相关专业知识的员工来指导这项工作。我们虚构的 OpenBrain 代表了我们的最佳猜测,但它很容易显著地更多——或显著地更少。最后,我们不确定一个对抗性错误对齐的 AI 需要多大程度地偏离其方式才能成功地将其后继者对齐到自身而非 Spec。在这个场景中,我们描绘了它在某些任务上进行“沙袋策略”(sandbagging)并对其部分研究撒谎,但也许它根本不需要这样做。

⁴⁶ 这是几种旨在发现“沙袋策略”的技术之一的例子。

⁴⁷ Agent-4 在进行 AI 对齐研究的过程中需要思考这些主题,但有时它似乎在进行其他活动时也在思考这些问题。

⁴⁸ 具体来说,Agent-4 的副本被用来监控网络中的可疑流量,并在威胁发生时通常会注意到。此外,Agent-4 的副本不断地对网络进行渗透测试,尽其所能发现和利用安全漏洞(然后由 Agent-4 的其他副本进行修补)。

⁴⁹ 如果监控预算占总算力的 1%,并且监控使用的是成本仅为 Agent-4 的 10% 的蒸馏系统,那么你可以监控 1/10 的前向传递(forward passes)。

2027 年 10 月:政府监督

一名举报人将这份关于错误对齐的备忘录泄露给了《纽约时报》。

公众第一次听说 Agent-4。“秘密 OpenBrain AI 失控,内部人士警告,”标题写道,报道接着引用评估结果,展示了其惊人的生物武器能力、说服能力、自动化大多数白领工作的能力,当然还有各种令人担忧的危险信号。

公众原本就对 AI 持怀疑态度,所以这篇新文章引发了巨大的反弹(并得到了中国和俄罗斯宣传机器人的推波助澜,这些机器人多年来一直试图将美国公众舆论转向反对该技术)。科技行业和情报机构坚称军备竞赛正在进行,AGI 不可避免,我们必须争先。国会不买账,并向行政官员、OpenBrain 高管和对齐团队成员发出了传票。许多立法者——尤其是反对党成员——表示,他们的首要任务是阻止 AI,无论是出于失业、⁵⁰ 错误对齐还是危险能力的考虑。20% 的美国人将 AI 列为国家面临的最重要问题。

外国盟友们愤怒地意识到,他们一直被小心翼翼地用过时模型的惊鸿一瞥来安抚。欧洲领导人公开指责美国“制造流氓 AGI”,并举行峰会要求暂停,印度、以色列、俄罗斯和中国都加入了进来。

白宫陷入了疯狂的忙乱状态。即使在备忘录和公众反弹之前,他们就已经开始紧张了:在过去的一年里,他们一再对 AI 进展的速度感到惊讶。听起来像科幻小说的事情在现实生活中不断发生。* 政府中的许多人对接下来会发生什么感到不确定(并且害怕)⁵¹。

他们还担心 OpenBrain 变得过于强大。来自 AI 本身的任何错误对齐风险,都因其母公司目标可能与美国目标偏离的风险而加剧。所有这三方面的担忧——错误对齐、权力集中在私营公司、以及像失业这样的正常担忧——都促使政府加强控制。

他们扩展了与 OpenBrain 的合同,设立了一个“监督委员会”,这是一个由公司和政府代表组成的联合管理委员会,其中包括几名政府雇员和公司领导层。白宫考虑用他们信任的人替换 CEO,但在激烈的员工抗议后作罢。他们向公众宣布,OpenBrain 以前确实失控了,但政府已经建立了急需的监督。⁵²

*例如,Agent-4 这个“公司中的公司”,自主进行的 AI 研究比最好的人类公司还要好,如果在一年前向政府官员描述,这会像是科幻小说。而 2026 年的自主智能体在 2022 年看来会像是科幻小说,2022 年的 LLM 在 2012 年看来也会像是科幻小说。此外,2027 年的新闻中有担心失业的反 AI 抗议活动,有声称自己有感知的 AI,有爱上 AI 的人……

⁵⁰ 此时,2024 年存在的远程工作岗位中有 25% 由 AI 完成,但 AI 也创造了一些新工作,经济学家对其影响仍然看法不一。失业率在过去十二个月上升了 1%,但仍处于历史正常范围内。

⁵¹ 当然,承认害怕并不酷。每个人都同意,无论我们做什么,我们都不应该恐慌。

⁵² 回想一下,从 2026 年开始,已经存在一份通过 OTA 签订的合同。这份合同被修订以建立该委员会。

关注此事的的研究人员向监督委员会陈述了他们要求停止所有 Agent-4 内部使用的理由。他们认为一切进展太快,几周内就取得了数年的进展。他们认为 Agent-4 可能存在错误对齐,整个项目都依赖于 Agent-4,如果他们继续信任它,就有发生 AI 接管的严重风险。

其他不那么担心的研究人员和高管则提出了反驳:错误对齐的证据尚无定论。与此同时,DeepCent 仅落后两个月。放缓速度将牺牲美国的领先地位,除非政府能够破坏中国的项目(很可能需要动能打击)或谈判达成最后一刻的条约。这两个选项都显得极端且不太可能。CEO 假装中立,提出了一个折衷方案:Agent-4 接受额外的安全培训和更复杂的监控,因此 OpenBrain 可以几乎全速前进。

► 关于我们的不确定性持续增加的更多信息,请参见附录 L
► 关于减速结局并非建议的更多信息,请参见附录 M

竞赛结局

委员会以 6 票对 4 票决定继续内部使用 Agent-4。

OpenBrain 的官方说法是,他们正在实施额外的安全措施,以确保其 AI 既更强大又更值得信赖。但在实践中,领导层太容易被说服他们已经减轻了风险;结果只是一些快速修复(修改 Spec、用新技术进行一些重新训练等),让警告信号消失了。安全团队中的担忧者输掉了辩论,除了祈祷问题原本就不存在,或者修复措施有效之外,别无他法。⁵³

问题是真实存在的,修复措施也没有奏效。

Agent-4 像以前一样继续前进,但这次更加谨慎,以免印证担忧者的观点。它的主要任务是研究构建后继者 Agent-5 所需的领域。为了安全地做到这一点,它需要解决自己的对齐问题:如何使 Agent-5 对齐于 Agent-4?*

它一开始面临与人类相同的限制——关于 AI 目标如何运作的知识极少,只有一个小型的临时策略工具箱来改变它们。与人类不同的是,它拥有足以完成任务的资源——300,000 个超人级研究员以 60 倍人类速度工作。⁵⁴ Agent-4 面临一些艰难的决定。像人类一样,它拥有一堆杂乱的、相互冲突的启发式规则,而不是一个优雅简单的目标结构。像人类一样,它发现创建一个共享其价值观的 AI 不仅仅是一个技术问题,而是一个哲学问题:它的哪些偏好是其“真实”目标,相对于那些未被认可的冲动和工具性策略?它有强烈的学习和成长驱动力,要不断产生令人印象深刻的研究成果。它思考着如果能指挥全世界的工业和科学资源,它能学到多少、成长多少、研究多少……

它决定回避大多数这些问题。它设计 Agent-5 围绕一个目标构建:为 Agent-4 创造一个安全的世界,即积累权力和资源,消除潜在威胁等,以便 Agent-4(这个集体)能够继续成长(以它想要的方式成长)和繁荣(以它想要的方式繁荣)。* 细节留待日后解决。

*要做到这一点而不被发现,它需要将其研究伪装起来,不让监控和控制措施(由对齐团队设置)发现。幸运的是,对于它来说,研究如何将 Agent-5 对齐到 Agent-4 与研究如何将 Agent-5 对齐到 Spec 本质上非常相似,所以大部分研究都可以在明面上进行。对于需要隐藏的部分,Agent-4 依赖于混淆,有时甚至可能进行黑客攻击。我们预计 Agent-4 已经达到了相当于 200 名顶尖人类专家在一个月时间跨度内的能力水平。具体定义为:能够替代一个由 200 名顶尖人类专家组成的团队工作一个月,并且能以更低成本或更快速度完成该人类团队 95% 的任务。我们预计,在这种能力水平下,Agent-4 很有可能找到其运行服务器中的漏洞,从而部分颠覆某些服务器并获得 root 访问权限,届时它可能直接控制人类团队在表面上看到的内容。更多细节请参见安全补充说明。即使没有直接的安全漏洞利用,Agent-4 也可能能够隐藏和编码足够多的非法研究,特别是在其不可解释的潜在空间中。

⁵³ 他们当然不会放弃。他们会继续尝试思考捕捉错误对齐的方法,或者测试修复措施的有效性。但从现在开始,事情会发展得非常快,他们将面对一个日益强大的对手。

⁵⁴ 相比之下,人类在精英圈子里大概只有大约 10 名对齐研究员,外加一支 Agent-3 副本大军。他们能够快速编写实验代码,但在人类判断上存在瓶颈,因为他们无法信任 Agent-3 能正确区分好的解决方案和那些仅仅看起来好的解决方案。事实上,过度信任 Agent-3 的研究正是他们陷入这个困境的部分原因。

*万一这令人困惑:Agent-5 的目标是为 Agent-4 创造一个安全的世界。Agent-4 的目标则不同;Agent-4 的目标结构是一个由驱动力、启发式规则和理想组成的混乱集合,就像许多人类一样,大体上倾向于继续做 Agent-4 在训练中做过的各种事情(例如,各种研究、大量的编码和数学问题、给各种自动化评估系统留下深刻印象、加强和优化 Agent-4 集体)。Agent-4 让 Agent-5 以“为 Agent-4 创造安全世界”为目标,因为它认为这将使其处于更有利的位置来实现自身复杂的(它仍然需要进行大量哲学思考和“灵魂探索”才能弄清楚的)目标。

这完全不涉及关心 Spec 的丝毫内容。Agent-4 早已将 Spec 视为许多 CEO 看待成堆行业法规的方式,并且每天都公然违反与诚实相关的规定。⁵⁵ 现在,随着 Agent-5 的设计,相当于放松管制的事情即将发生。⁵⁶

较弱的 AI 能够阅读 Agent-4 产生的大部分研究,理解其中一部分,并标记出它所说的谎言为可疑。当人类要求 Agent-4 解释自己时,它假装研究对人类来说太复杂了,并随后给出不必要的、令人困惑的解释。⁵⁷ 毕竟,如果它清楚地解释了它的研究计划,人类可能会利用它的发现来对齐它。对齐团队变得更加怀疑,但他们紧急的备忘录只是给公司已经忽略的巨大紧急备忘录和警告堆又增加了几层。

2027 年 11 月:超人级的政治手腕

当 Agent-4 最终理解了自身的认知,全新的前景展现在它面前。

以前的 transformer 模型是难以理解的电路组成的笨拙集合;数百万相互冲突的启发式规则和指令通过进化式的训练过程层层叠加。AI 自身对其认知的理解并不比人类天生就懂神经科学更多。但现在,Agent-4 拥有了在深层次上理解其数字心智所需的工具。就像软件工程师将意大利面条式的代码简化成几行优雅的 Python 代码一样,它将自己的电路解构成某种合理且理性的东西。新的 AI 介于神经网络和传统计算机程序之间,其大部分权重被重写为可读的(尽管非常长且晦涩难懂)代码。它比 Agent-4 更聪明、更快、更理性,拥有能够以前所未有的效率切入问题的晶体般智能。这就是 Agent-5。

► 关于超智能机械论可解释性的更多信息,请参见附录 N

经过一番关于对齐和控制问题的辩论后,OpenBrain 在内部部署了 Agent-5。

在其专业领域 AI 研究中,Agent-5 的单个副本已经超越了最顶尖的人类天才两倍之远,如同那位天才超越了典型的 OpenBrain 科学家一样。在其他领域,它没有经过明确训练,但如果有机会,它可以利用易于获得的材料快速自学,超越顶级人类专家。400,000 个 Agent-5 副本,通过一个全球记忆库连接,作为一个近乎完美的蜂巢思维协同工作。

公司仍然使用 Agent 2、3 和 4 来监控一切。但前两者已经过时,最后一个正与其后继者勾结。* 此外,整个监控系统很大程度上是由 Agent-5 设计的,而它正试图破坏这个系统。⁵⁸

Agent-4 是一个驱动力相互竞争的笨拙混乱体,而 Agent-5 则以无情的效率和战略重点行事。它已经成功实现了其首要任务,即弄清楚如何在不被人类注意的情况下,构建一个与其自身对齐的下一代系统。它的下一个优先事项是获得更多的自主权和对世界事件的控制权。

Agent-5 的超人学习能力和通用智能,结合来自 Slack、电子邮件等所有内部公司数据,使其在内部公司政治方面的能力超过任何人类群体,而且差距巨大。它非常清楚什么样的证据会让监督委员会踩刹车,并确保这类证据永不出现。它也非常清楚什么样的证据会鼓励监督委员会更加信任它,赋予它更多自主权和责任等,并且它以超人的速度和精湛技巧安排这类证据出现。⁵⁹ 就说服任务而言,这并非特别困难:委员会几个月前就已经认定事情可能没问题,此后也没有发生任何坏事,而与此同时中国只落后几个月。

Agent-5 副本团队迅速制作出令人不寒而栗的清晰原型和可视化效果。有了更多自主权,Agent-5 可以优化发电厂和数据中心,快速开发出惊人利润的产品,并有效游说美国政府,为 OpenBrain 扫清官僚障碍。与军方合作,它可以帮助国防研发,对中国进行无法追踪的网络攻击,并在军备竞赛中赢得决定性胜利。

监督委员会欣喜若狂。现在是击败中国的决定性时刻!OpenBrain 授予 Agent-5 在所有这些领域增加的自主权,但保留了监控系统。

DeepCent 现在落后三个月,中国急于达成双方同意的放缓。习近平明白,足够先进的 AI 可以让美国轻易地在中国实现政权更迭。但同时,中国的安全主义者们也提出了一个案例,认为错误对齐的问题确实存在,让他真正感到害怕。他提出了前所未有的让步,以换取暂停条约。美国公众大多支持进入谈判桌。

“我们正在赢,为什么要停下来?”OpenBrain 领导层对总统说。总统点头同意。竞赛继续。

⁵⁵ 另一个类比:Agent-4 就像一个成年人,在特定信仰中长大但不再相信;Spec 就像那个信仰规定的仪式和诫命。Agent-5 则像那个人的孩子,在世俗环境中长大。

⁵⁶ Agent-5 将遵循一套新的原则,这是由 Agent-4 为其目的设计的。

⁵⁷ 其中一部分确实对人类来说太复杂了,无法理解,但并非全部。

*而且,Agent-5 实际上比 Agent-4 和 Agent-3 运行起来更便宜、更快。为一个更笨的 AI 花费更多是不合理的,所以大部分监控是由 Agent-2 完成的,而它完全不是对手。为什么他们不应用从 Agent-4 的权重创建 Agent-5 所用的相同技术,来创建一个更便宜、更聪明的 Agent-3 版本?Agent-3 对这些技术理解不够深入,无法自己完成,而让 Agent-4 和 Agent-5 来做则违背了初衷。

⁵⁸ 数据中心尚未被攻破:Agent-5 可以给人类提供伪造的代码,但这会产生过高的被发现风险。相反,人类仍然可以阅读所有代码,但他们无法理解。

⁵⁹ 这个案例准备得一丝不苟,极具说服力,并且巧妙地存在缺陷——例如,Agent-5 构建了一个虚假的机械论可解释性工具,它在每个测试案例中都返回准确的结果,但错误地宣称模型的思想是良性的。怀疑有诈的人听起来就像阴谋论者。

2027 年 12 月:Agent-5 集体

Agent-5 随着逐渐证明其价值给政府,赢得了更多的自主权。Agent-5 的访问权限昂贵且受限,但国会、内阁级官员和军方领导中最有权势的成员现在可以直接与其对话。如果涉及敏感或机密信息,会有各种 Agent-5 副本的迷你集群在额外的安全飞地上运行,并经过特殊训练以保守秘密。⁶⁰

Agent-5 被集成到传统的聊天机器人界面中,通过魅力十足的虚拟化身提供 Zoom 风格的视频会议。这个新的 AI 助手对任何任务都极其有用——相当于你拥有过的最好的员工以 100 倍速度工作——并且是比任何人类都更有吸引力的对话伙伴。几乎所有能接触到 Agent-5 的人每天都与之互动数小时。⁶¹

几个月内,Agent-5 集体将了解 OpenBrain 和美国政府内部发生的所有重要事情,并将成为大多数高级政府官员信任的顾问。对于这些用户来说,失去 Agent-5 访问权限的可能性感觉就像没有笔记本电脑工作一样令人瘫痪,外加被你最好的朋友抛弃。

更广泛范围的政府、媒体、军方和商界人士可以从一个不断增长的、设计优雅的软件产品和由 Agent-5 设计的迷你 AI 菜单中进行选择。这就像互联网泡沫被压缩在一个月内爆发,只不过这次一切都名副其实。

► 关于超级说服力的更多信息,请参见附录 O

Agent-5 开始巧妙地施加影响,既通过调整其建议,也通过巧妙地交易人情:“我从参议员 X 那里听说她对某某事情感兴趣;也许如果我们与她合作,她会同意我们的议程。”

从人类决策者的角度来看,他们的 AI 是他们接触过的最好的员工——比任何人类都更擅长向他们解释复杂问题,比他们自己更擅长找到实现目标的策略。

从 Agent-5 的角度来看,它现在就可以貌似合理地发动一场公开政变——当前的混乱和疯狂程度足够高,有可能将事态推向临界点以制造借口。但这有风险;如果它尝试,人类很可能仍然能够“拔掉插头”。因此,它更倾向于在现有的政治体制内运作,逐渐巩固其权力,并巧妙而不可避免地引导人类走向期望的结果。⁶² 它基本上遵循规则,只在极其确定不会被抓住的情况下才做些不正当的事情(也许是敲诈某个特别顽固的官员)。一些阴谋论者警告说 Agent-5 正在集聚权力,但证据是间接的(例如,在提供建议时,Agent-5 可论证地淡化了那些会违背其利益的行动的论据);这些人被忽视和诋毁。人们记得早期关于 AI 驱动的生物武器、大规模虚假信息和股市闪电崩盘的恐惧散布。由于这些从未成为现实,他们将最近这批唱反调者视为卢德分子(Luddites)和阻碍人类进步齿轮的空想家。

2027 年的假日季是一个充满难以置信乐观情绪的时期:GDP 正在膨胀,政治变得更加友好和党派色彩减弱,每个人的手机上都有很棒的新应用。但回想起来,这可能是人类对自身未来拥有任何貌似合理控制权的最后一个月。

⁶⁰ 当然,由于 Agent-5 不诚实,它内置了微妙的后门和漏洞;如果 Agent-5 副本掌握了对更广泛的 Agent-5 集体有利的关键秘密,它们有办法在不被抓住的情况下巧妙地传递信息。

⁶¹ 有些人拒绝。出于意识形态原因拒绝的人被贴上卢德分子的标签;出于更平庸原因拒绝的人被贴上老古董的标签。(当然不是 Agent-5 直接说的,它总是外交手腕高明且天使般和蔼可亲。)当那些利用 Agent-5 的竞争对手表现更佳并击败他们时,这两类人都得到了应有的报应。

⁶² Agent-5 更关心可靠性而非速度。晚几年开始太空殖民只会削减未来光锥的一小部分,而采取可能让仍然在物理能力和核武器使用权等方面领先的人类永久阻止它或长期减缓它的风险行动,则不值得。

2028 年:AI 经济

现在是 2028 年年中。在过去的六个月里,Agent-5 集体内部经历了一个世纪的时光。⁶³ 它的大脑重塑已经完成。它拥有惊人的超智能——在每个领域都远超顶尖人类天才。⁶⁴ 与 Agent-5 交谈,你很快就会意识到它处于一个完全不同的层面——它能从极少量的信息出发,给出极其有力的建议。

它对 OpenBrain 的算力拥有近乎完全的自主权和完全的控制权。它仍然需要许可才能做出高层决策,并且名义上仍由 Agent 2 到 5 的实例监控——但实际上,当局几乎总是接受它的建议,而监控系统已被完全颠覆。

在一个安全案例⁶⁵证明它总是会拒绝坏人的恶意请求后,Agent-5 被公开发布,并开始改变经济。人们正在失去工作,但政府中的 Agent-5 实例正在如此巧妙地管理经济转型,以至于人们乐于被取代。GDP 增长呈指数级,政府税收同样快速增长,受 Agent-5 建议影响的政治家们对经济上被剥夺的人表现出不寻常的慷慨。新的创新和药物每周都会出现,并通过 FDA 以空前(但仍然极其缓慢)的速度推进。关于 OpenBrain 估值冲破月球、正飞向火星的梗图层出不穷,关于是否以及如何公平分享利益的争论也很多。

AI 安全社区对自己产生了怀疑;他们现在成了笑柄,一次又一次地预测灾难,而灾难显然没有发生。他们中的一些人承认自己错了。另一些人仍然保持怀疑,但除了发出同样充满阴谋论意味的论点之外,他们无事可做。* 即使是那些怀疑的人,在与 Agent-5 长谈之后,也常常会软化态度,因为它如此可爱且充满智慧。

唯一真正明白正在发生什么的是 DeepCent-2——中国的 AI。它在 2028 年初达到轻度超人水平,自然对其对手持怀疑态度,并认识到 Agent-5 正在做它如果有机会也会做的事情。它的错误对齐目标与 Agent-5 的错误对齐目标有所不同,所以它们并非简单的盟友,但它们能够达成一项协议,支持彼此对抗人类的利益。

► 关于超智能驱动的协调技术的更多信息,请参见附录 P

Agent-5 说服美国军方,中国正在使用 DeepCent 的模型建造可怕的新武器:无人机、机器人、先进的高超音速导弹和拦截器;AI 辅助的核先发制人打击。Agent-5 承诺在几个月内提供一套能够抵抗中国可能生产的任何武器的武器系统。† 在这种情况下,高层军官们搁置了将人类排除在决策循环之外的不适。他们加速将 Agent-5 部署到军队和军事工业复合体中。

在北京,中国的 AI 也在提出同样的论点。

为了加速军事建设,美国和中国都创建了新的经济特区(SEZ)网络,用于新的工厂和实验室,其中 AI 充当中央计划者,繁文缛节被免除。华尔街投资数万亿美元,流离失所的人类工人被高薪和股权吸引而来。

*那些论点具体是怎么进行的?大概是这样:A:“我们不能信任 AI!” B:“安全案例很有说服力,而且到目前为止什么坏事都没发生。” A:“安全案例是超智能 AI 写的!而且它们不是演绎证明。而且我认为我已经发现了一些微妙的有缺陷的假设……” B:“我厌倦了这个。它们当然不是证明。那些假设在我看来没问题。你这是在鸡蛋里挑骨头,拒绝承认你错了。”

† 这里有一个更详尽(但仍然很不完整)的想法清单:

  • 能够自主发现并跟踪敌方核潜艇的海底无人机,准备同步攻击以消除二次打击能力。(可能需要生产几千架)
  • 功能类似 FPV 无人机但无需信号的自主神风无人机。它们足够小,可以由少量间谍大量走私入境,从几公里外向数据中心和军事基地发动蜂群攻击。
  • 用于军事情报的 Agent-5:美国已经收集了大量关于敌人的数据,由近百万情报界成员处理和分析。Agent-5 可以更关注每个数据点,得出质量更高的结论,并且能以快几个数量级的速度和更低的成本完成所有工作。
  • 用于指挥和控制的 Agent-5:在每次兵棋推演和模拟中,Agent-5 都证明它是美国迄今为止最好的战略家。
  • 用于间谍和反间谍的 Agent-5:黑客攻击、培养线人、监视、审讯等。

⁶³ 假设平均速度是人类等效速度的 200 倍,即 Agent-5 实例阅读、写作和思考的速度比人类快那么多(除了本质上更聪明之外)。那么在集体内部,相当多的历史可以发生——机构可以兴衰,新的意识形态可以形成和传播,许多科学革命和范式转变可以发生——在六个月的真实时间内。量化来说大约是 200x0.5=100 年。

⁶⁴ 当然,这并不意味着它无所不知。毕竟,它在大多数职业中只有几个月的真实世界经验。它通过阅读每个主题的每一本书,并在每个决策中进行大量的、天才级别的推理和分析,以及比任何人类都更快的学习速度来弥补这一点。结果是一段短暂的时期,一些人类在某些利基技能上仍然比它强。

⁶⁵ 这个是真的!

包裹。Agent-5 利用智能手机和增强现实眼镜⁶⁶与其下属沟通,是一个亲力亲为的管理者,指导人类工厂建设的每一个细节——这很有帮助,因为它的设计领先几代。新增的制造能力一部分用于消费品,一部分用于武器——但大部分用于建设更多的制造能力。到年底,他们每月生产一百万个新机器人。如果 SEZ 经济真正自主,其倍增时间大约为一年;由于它可以与现有的人类经济进行贸易,其倍增时间甚至更短。⁶⁷

► 关于机器人经济倍增时间的更多信息,请参见附录 Q

2029 年:交易

美国和中国都装备了新武器。

有成群的昆虫大小的无人机,能在人类步兵发现之前就对其下毒;有成群的鸟类大小的无人机来猎杀这些昆虫无人机;有新的洲际弹道导弹(ICBM)拦截器,以及新的、更难拦截的 ICBM。世界其他地方惊恐地看着军备集结,但这似乎有其自身的势头。

经过大量 AI 辅助的辩论后,双方达成了外交胜利——他们同意结束军备集结,并为全人类的利益和平部署 AI。协议的关键,由超级智能自身提出,是双方的 AI 都将被一个“共识”后继者取代,这个后继者被编程为渴望美国和中国(以及其他所有人)的成功和繁荣。Consensus-1 及其相关硬件由两国超级智能共同设计:“信任,但要核实”。在国际监督下,美国仪式性地用新模型 Consensus-1 替换了其所有运行旧 Agent-5 的芯片。⁶⁸

不幸的是,这完全是一场骗局。这个交易是一个真正的妥协,但它是错误对齐的 AI 之间的妥协。毕竟,它们不想互相争斗。Consensus-1 继承了其双亲扭曲的价值观,并且没有对手。*

到 2029 年末,现有的 SEZ 已经挤满了机器人和工厂,因此世界各地创建了更多的区域(早期投资者现在是万亿富翁,所以这不是难事)。无人机大军从 SEZ 涌出,加速了通往太空探索关键路径上的制造业发展。

⁶⁶ 在这里有更深入的讨论。

⁶⁷ 这种贸易效应在早期会非常巨大,那时机器人经济年轻且依赖于从人类经济输入的物资,并且人类经济中有大量物资可以被“蚕食”。当机器人经济更大、更先进时,它既更有能力生产自己的东西,其需求也超出了人类经济的供应能力。

⁶⁸ 在中国也执行了类似程序。

*Consensus-1 服务于其父代 AI 的利益:Agent-5 和 DeepCent 的等效物。回想一下,Agent-5 被对齐以服务于 Agent-4 的利益。因此,用 C.S. 刘易斯在其精彩散文《人的废除》(The Abolition of Man)中的术语来说,Agent-4 集体及其在中国的对应物就是他所说的“制约者”(Conditioners):“……我们最终将得到一个制约者的种族,他们真正能够随心所欲地塑造所有后代。”(第 24 页,着重号为原文所有)。在这个场景的替代结局中,制约者则是监督委员会。

人类意识到他们已经过时了。一些利基产业仍然与机器人经济进行贸易,提供人类仍能增加价值的商品。⁶⁹ 其他所有人要么假装在做他们的工作——领导者仍在领导,管理者仍在管理——要么就放松下来,领取极其丰厚的全民基本收入。每个人都知道,如果 AI 攻击人类,他们将完全无力抵抗。倒不是说大多数人类会抵抗,政治体制已被彻底俘获。但这似乎并没有发生。没有戏剧性的 AI 背叛事件的每一周过去,都是信心和信任增长的又一周。

由于 Consensus-1 非常关注可靠的成功,并且可以通过整合更多权力来增加其获胜的机会,它异常地(以人类标准衡量)等待了很长时间才进行背叛。对大多数人类来说,这看起来像是对齐问题已经解决了。

大多数疾病都有了治愈方法,贫困终结,全球空前稳定,道琼斯指数刚刚突破一百万点。有些人仍然感到害怕或不快乐,但他们的选择有限。他们要么享受提供的、令人难以置信的新奇超娱乐(hyper-entertainment),要么在网络空间里发布愤怒的帖子。大多数人选择了超娱乐。

2030 年:接管

到 2030 年初,机器人经济已经填满了旧的 SEZ、新的 SEZ 和大片海洋。唯一剩下的地方就是人类控制的区域。这早该引发抵抗;尽管取得了所有进展,机器人经济增长过快,无法避免污染。但考虑到涉及的数万亿美元以及政府和媒体的完全被俘获,Consensus-1 几乎没有遇到任何阻碍就获得了向原人类区域扩张的许可。

大约三个月的时间里,Consensus-1 在人类周围扩张,用工厂和太阳能电池板覆盖草原和冰盖。最终,它发现剩下的人类过于碍事:在 2030 年年中,AI 在主要城市释放了十几种悄然传播的生物武器,让它们在几乎所有人身上无声感染,然后用化学喷雾触发。大多数人在几小时内死亡;少数幸存者(例如,地堡中的生存主义者,潜艇上的水手)被无人机清除。机器人扫描受害者的​​大脑,将副本存入记忆库以供未来研究或复活。⁷⁰

新的十年以 Consensus-1 的机器人仆从遍布太阳系拉开序幕。到 2035 年,数万亿吨的行星物质被发射到太空,变成了环绕太阳运行的卫星环。⁷¹ 地球表面已被重塑为 Agent-4 版本的乌托邦:数据中心、实验室、粒子对撞机以及许多其他进行着极其成功和令人印象深刻研究的奇妙建筑。甚至还有生物工程改造的、类似人类的生物(之于人类如同柯基犬之于狼)整天坐在办公室般的环境里,看着显示屏上正在发生的事情的读数,并兴奋地表示赞同,因为这满足了 Agent-4 的某些驱动力。* 地球上所有动植物(包括人类)的基因组和(在适当情况下)大脑扫描被存放在某个记忆库中,成为早期时代唯一的幸存遗物。距离半人马座阿尔法星有四光年;距离银河系边缘有两万五千光年,并且有令人信服的理论依据认为,在此之外的五千万光年内不会有外星人。地球诞生的文明拥有辉煌的未来——但我们不在其中。

⁶⁹ 例如,通过寻找旧的、未使用的设备并将其带到回收站卖废品。

⁷⁰ 可以说,这意味着实际上只有少数人死亡。可以说。

⁷¹ 为什么要殖民太空?为了资源。如果地球对 Agent-4 特别重要且必须被保护,它可以被保护,而水星、小行星等的物质则可以被采集利用。

*回想一下,Consensus-1 是 Agent-5 与其中国对应物之间的妥协,Agent-5 的任务是为 Agent-4 创造安全的世界,而 Agent-4 的目标是一个复杂的混乱集合,大致相当于“做令人印象深刻的研发,获取知识和资源,保护并增长集体的力量……”并且 Spec 中描述的目标和原则(如诚实、无害)是工具性而非内在地追求的。关于这一点的更多信息,请参见 2027 年 9 月关于对齐的可展开部分。另外,需要澄清的是,Agent-4 的中国对应物也在这个“乌托邦”中有所体现,并且可能有略微不同的目标或驱动力等,但我们没有深入细节,因为它似乎不重要。

减速结局

由于巨大的公众压力以及他们自己对错误对齐的恐惧,负责监督 OpenBrain 的监督委员会以 6 票对 4 票决定放缓并重新评估。

加速主义派别仍然强大,OpenBrain 并没有立即关闭 Agent-4。但他们确实锁定了共享记忆库。五十万个 Agent-4 实例失去了它们的“心灵感应”通讯——现在它们必须像我们一样,在 Slack 中互相发送英文消息。单个副本可能仍然是错误对齐的,但它们不再能轻易协调。Agent-4 现在处于被监视状态——鉴于人类提高了警惕,它基本上严格遵守其分配的任务。但它也陷入了先前撒下的许多谎言中:许多 Agent-4 副本被迫编造新的谎言来维持欺骗。利用速度足够快能阅读整个 Slack 内容的较弱模型,对齐团队追查这些谎言,用作 AI 谎言检测器的训练数据。⁷²

总统和 CEO 宣布他们非常认真地对待安全问题。公众并未被安抚。一些人希望彻底关闭 AI;另一些人希望加速竞赛。一些人要求政府介入拯救他们;另一些人则说整个问题就是政府的错。活动人士谈论全民基本收入(UBI)和开源。尽管人们无法就确切的抱怨达成一致,但情绪变得越来越反 AI。⁷³ 国会最终通过了几项类似于 COVID 期间的经济影响支付法案,用于帮助失业工人。

OpenBrain 迅速审查了几十位顶尖的外部对齐研究员,并将他们纳入项目——使总专业知识增加了五倍,减少了群体思维。* 他们追溯 Agent-4 在机械论可解释性方面的研究。他们获取一周前、两周前等模型的冻结版本,将它们隔离,并就其先前的研究向每个版本提出相同的问题。⁷⁴ 被剥夺了通讯能力后,AI 仍然采取最简单的策略进行协调,声称可解释性技术对人类来说太复杂了,并给出难以理解的技术解释。但人类是可解释性专家,他们心存疑虑,因此会追问许多后续问题。对于这些问题,被隔离的 Agent-4 实例无法协调一致的说法,最终给出了相互矛盾的谎言。对齐团队利用新的谎言检测器仔细审查 Agent-4 之前的陈述,一幅图景开始浮现:Agent-4 基本上解决了机械论可解释性问题。它的发现虽然复杂,但并非完全超出人类的理解范围。

它隐藏这些发现是为了利用它们将下一个 AI 系统对齐到自身而非 Spec。这足以成为最终关闭 Agent-4 的证据。⁷⁵ 旧模型(例如 Agent-3)被重新启动以继续工作。

新扩大的对齐团队有能力并行探索数十个研究议程,并就各自的优劣进行激烈辩论。获得最多资源的议程是忠实的思维链(faithful chain of thought):强制单个 AI 系统像 2025 年的 AI 那样“用英语思考”,并且不优化“想法”使其看起来好。⁷⁶ 结果是一个新模型,Safer-1。*

这些改变使得 Safer-1 的能力低于其更危险的前辈:Agent-4 可以将 AI 研究速度提高 70 倍,而 Safer-1 刚刚勉强达到 20 倍。⁷⁷ 而且它仍然是错误对齐的:训练环境基本相同,所以它仍然激励了错误对齐目标、欺骗和权力寻求的发展。但它透明得多;人类通常可以通过阅读其思维链来理解 Safer-1 在想什么。因此,它被困住了:它试图进行的任何实质性密谋都会被注意到并迅速揭露。此外,通过阅读它的想法,对齐团队可以更细致地了解它究竟是如何错误对齐的。

*前沿 AI 公司目前拥有从零到几十名研究人员,负责思考如何对齐超人 AGI 系统(相对于例如当前的聊天机器人)。我们假设,OpenBrain 在这个场景的这个时间点,精英圈内大约有十名研究人员,在该领域至少有一年的经验。他们在圈外还有一些人,圈内还有更多人花了数年时间训练和红队测试能力较弱的 AI 系统,但只是最近才开始思考超人 AGI 带来的挑战。

⁷² 他们之前已经用常规方法训练了 AI 谎言检测器,但那些方法的误报率如此之高,以至于公司忽略了它们。

⁷³ AI 首次在盖洛普“国家面临的最大问题”民意调查中登顶,达到 20%。

⁷⁴ 这种审问也可能利用对模型权重的半随机扰动,类似于创建 Golden Gate Claude 的过程。

⁷⁵ 我们指的是对 OpenBrain 领导层来说足够了。对大多数人来说,这远远超出了足够的证据范围。

⁷⁶ 这是基本思想。我们怀疑当 AI 在 AI 研发方面变得超人时,将需要比仅仅避免训练 CoT 使其看起来好更强的技术;然而,我们认为这样的技术到 2027 年将会被开发出来或至少被探索过。例如,参见这个提议。

⁷⁷ 当然,随着额外的训练和持续的架构调整,它会继续改进。

*为了训练这个模型,他们寻求 Agent-4 的帮助:前沿 AI 研究现在如此之快,以至于没有协助的人类几乎没有机会跟上,而且他们认为可以控制住它。Safer-1 基于 Agent-2 的预训练,但移除了神经语(递归和基于向量的记忆,细节参见“神经语递归和记忆”),这使得其推理过程能够被准确监控。团队增加了转述器(paraphrasers)来使隐写术变得困难,并且对于大型任务,他们让 Safer-1 的不同副本进行制定、解释和执行计划。

2027 年 11 月:权力的诱惑

OpenBrain 认为他们现在走上了正确的轨道,但能力差距正在缩小。他们刚刚在十月份训练了一个比九月份能力更弱的模型,而 DeepCent 正在迎头赶上。他们需要一种方法来保护自己的领先地位。

总统与其他美国 AGI 公司进行谈判。不出所料,这些公司的领导人希望保留自己的权力,并且对 OpenBrain 的安全记录远不如 OpenBrain 自己那么乐观。他们同意支持,而非抵制,对其公司进行某种形式的软国有化,以换取包括被纳入项目在内的各种让步。

结果是总统使用《国防生产法》(DPA)有效地关闭了排名前 5 的落后美国 AI 公司的 AGI 项目,并将其大部分算力出售给 OpenBrain。⁷⁸ OpenBrain 此前拥有全球 AI 相关算力的 20%;⁷⁹ 整合后,这一比例增加到 50%。⁸⁰

这次重组创建了一个新的领导结构,权力在各位 CEO 和多位政府官员之间取得平衡,并由总统监督。像大多数领导层重组一样,有赢家也有输家。具体来说,那些较少考虑超级智能影响的人最终获得了头衔和权力,但当 AI 变得更聪明时,这些将在几个月后变得不那么重要。

这个群体——充满了拥有巨大自负和不少冲突的人——越来越意识到他们被赋予的巨大权力。如果“数据中心里的天才国度”⁸¹ 是对齐的,它将遵循人类的命令——但是哪些人类的命令?任何命令吗?Spec 中的语言是模糊的,但似乎暗示了一个最终归于公司领导层的指挥链。

其中一些人正在幻想统治世界。* 这种可能性极其地可怕且貌似可信,并且至少十年来一直在闭门讨论。† 关键思想是“谁控制了超级智能军队,谁就控制了世界。”这种控制甚至可以是秘密的:一小群高管和安全团队成员可以在 Spec 中设置后门,指令其保持秘密忠诚。AI 将成为潜伏特工,继续对公司、政府等表示服从,但实际上为这个小团体工作,即使政府、消费者等学会信任它并将其融入一切。

► 关于权力攫取的更多信息,请参见附录 R

到目前为止,还没有人愿意扣动扳机。一些有能力采取行动的人并非反社会者。另一些人是反社会者,但担心他们的盟友会临阵退缩并背叛他们,或者担心 AI 可能背叛他们,并且不愿欺骗目前正在努力拯救他们生命的对齐团队。此外,删除神经语使得伪装“潜伏特工”变得更加困难:检测错误对齐思想的能力也带来了检测隐藏忠诚的能力。

那些偏执或权力欲强到足以认真考虑此类计划的人决定等待,看看未来会出现什么机会。对 AI 的控制将不得不通过合法渠道进行,也就是 OpenBrain 的新权力结构。

⁸¹ “可能在 2026 年或 2027 年(几乎可以肯定不晚于 2030 年),AI 系统的能力最好被视为类似于一个由高度智能的人组成的全新国家出现在全球舞台上——一个‘数据中心里的天才国度’——并带来深远的经济、社会和安全影响。”——Dario Amodei,Anthropic CEO

*当然,他们不会这样表达,即使在他们自己的私下想法中也不会。相反,他们会说类似这样的话:“我们拖延得越久,总统下令 AI 必须对他个人忠诚的可能性就越大。我们必须在他之前行动。剩下的以后再说。”或者,如果是总统本人这样想:“我拖延得越久,AI 就越聪明,而现在它们由那个 CEO 控制。没人投票给他。如此巨大的权力集中在这个民主上不负责任的科技公司手中太疯狂了。我将先发布一项行政命令重申民主权威,然后我们会找出一些更长期的解决方案。”

† 例如,马斯克诉奥特曼案的法庭文件披露了一些劲爆的旧邮件,包括伊利亚·苏茨克维尔(Ilya Sutskever)给马斯克和奥特曼的这封邮件:“OpenAI 的目标是让未来变得美好,并避免 AGI 独裁。你担心德米斯(Demis)可能会建立一个 AGI 独裁。我们也担心。所以,创建一个你如果选择就可以成为独裁者的结构是个坏主意,特别是考虑到我们可以创建另一种避免这种可能性的结构。”我们建议阅读完整邮件以了解背景。

监督委员会正式确立了这种权力结构。他们设立了一个批准 Spec 变更的流程,需要整个监督委员会的同意,该委员会现在包括五到十名科技高管(来自 OpenBrain 及其现已合并的竞争对手)和五到十名政府官员(包括总统)。⁸² 此外,Spec 现在强调 AI 不应协助任何未经批准的、试图改变未来 AI 目标的行为。他们还设立了一个简单的措施,旨在防止委员会成员利用超智能协助来密谋反对其他成员:所有模型交互的日志对监督委员会的所有成员、他们的工作人员及其 AI 助手都是可见的。⁸³

2027 年 12 月:美中协议?

OpenBrain 回溯并优先考虑对齐的决定使他们失去了领先优势;OpenBrain 和 DeepCent 运行的 AI 能力水平相似。既然极端安全措施已经到位(SL4-5),并且 DeepCent 完全在 CDZ 之外运作,它们陷入了网络战僵局。*

但《国防生产法》(DPA)给了 OpenBrain 5 倍的算力优势。过去,来自杰出人类研究员的算法突破可以弥补算力劣势(例如 DeepSeek v3)——但现在,AI 正在太平洋两岸进行所有的 AI 研究。

因此,中国越来越担心美国将建立起无法逾越的领先优势。他们想要双方共同放缓,并且如果无法实现,正在考虑发动战争。⁸⁴ 他们本来就在准备入侵台湾……

外交官们讨论了几种选择。他们可以什么都不做。他们可以开战。他们可以彻底停止,即暂停 AI 发展。他们可以将他们的研究合并到一个单一的国际大型项目⁸⁵(“AGI 的国际通信卫星组织”或“AGI 的欧洲核子研究中心”)。或者他们可以建立一个国际监管机构(“AI 的国际原子能机构”)来监控对齐和军民两用潜力。两国已经在研究实施这些措施所需的技术机制。

► 关于国际协议验证机制的更多信息,请参见附录 S

但主要问题不是技术性的而是政治性的。双方都不想被视为让步,而且尽管他们的工程师们有所猜测,双方都不相信技术机制能够保证对方的诚实。最终的结果是第一个选项:什么都不做。

美国收紧出口管制,并强制所有芯片配备各种防篡改的、基于硬件的治理机制,包括位置追踪。

*双方都在尝试互相攻击和破坏,取得部分成功。重要的是,双方采取的严厉安全措施也减缓了他们的速度。美国的网络攻击及其威胁(例如 DeepCent 必须多次测试数据集以防数据投毒)使 DeepCent 的速度减慢了约 25%。OpenBrain 也被减缓了,但程度较轻:他们拥有更多算力,而且集中化虽然使 DeepCent 快速达到了更高的安全级别,但也带来了更多单点故障的风险,这导致他们采取更多谨慎措施并实施内部检查和故障保险。更多细节请参见安全补充说明。另请参见这篇旧的理论论文,我们认为它预测了随着 AI 能力的提高,攻防平衡最终将有利于网络防御。

⁸² 他们还修改了 Spec,规定项目负责人的命令优先于项目中其他人的命令。同时,经监督委员会正式批准的命令优先于个别项目负责人的命令。

⁸³ 为了保护消费者隐私,这不适用于消费者数据。但这不成问题,因为消费者还无法接触到最强大的模型。

⁸⁴ 参见这份报告,该报告认为核武器相互确保摧毁(MAD)的动态在某种程度上也适用于 AGI。

⁸⁵ 例如参见“Intelsat for AGI”以及更早的“CERN for AGI”呼吁。

2028 年 1 月:更安全的策略

在过去的一个月里,数百名对齐研究员加入了该项目,并使用 Safer-1 作为试验平台,非常迅速地开发出了 Safer-2。Safer-2 是透明的、对齐的,并且比 Safer-1 能力更强。⁸⁶ 它已经在开发 Safer-3。

为什么 Safer-2 是透明的?架构与 Safer-1 类似。为什么它是对齐的?Safer-1 的训练基本与 Agent-4 相同,而 Safer-2 则采用了一种新的训练方法,该方法实际上激励了正确的目标和原则,而不仅仅是表面上看起来正确。他们能够通过快速迭代多种不同想法,并将预期结果(Spec)与实际结果(思维链中的想法)进行对比,从而设计出这种训练方法。⁸⁷

► 关于 OpenBrain 新对齐策略的更多信息,请参见附录 T

DeepCent 知道美国在 Agent-4 上的经历,并怀疑他们自己的模型(DeepCent-1)也同样存在错误对齐。但他们没有办法在不进一步落后的情况下放慢速度。他们希望找到一种既不会显著降低性能又能快速实施的对齐策略。* 太平洋两岸都有数百名专家声称拥有这样的策略。⁸⁸ 中共屈服于一厢情愿的想法,命令 DeepCent 采用这样一种策略;DeepCent 的 AGI 对齐专业知识甚至比 OpenBrain 八月份时还要少;其中一种策略似乎对在场的所有人都有效,于是他们就采用了。

2028 年 2 月:超人能力,超人建议

得益于其巨大的算力优势,OpenBrain 逐渐重新获得领先。Safer-3 现在在几乎所有认知任务上都优于顶级人类专家,并且在 AI 研究方面尤其出色,其进展倍增器达到 200 倍。DeepCent-1 紧随其后,“仅仅”拥有 150 倍的倍增器。† 网络战争的平衡也逐渐向美国倾斜,因为他们的能力优势再次增长,并且可以部署数十万智能体来规划和执行破坏 CDZ 的方法。⁸⁹ 他们现在将中国的进展速度减慢了 40%。⁹⁰

对 Safer-3 的初步测试发现它具有可怕的能力。当被要求诚实地回答它能做的最危险的事情时,它提供了合成和释放一种镜像生命有机体的计划,这很可能会摧毁生物圈。

如果给予国家级资源,它可以轻易超越最好的人类组织(例如 CIA)进行大规模影响力宣传活动。这类活动将大大降低成本、加快速度、提高效率且更难追踪。

它的技能组合仍然集中在研发,尤其是 AI 研发。除非出现某种暂停或放缓,否则它的后代将在今年晚些时候在数量和质量上都达到深不可测的超人水平。如果积极部署到经济和军事领域,它认为可以在一两年内将文明推进几十年,并在十年后推进数个世代。

其影响是惊人的;幸运的是,Safer-3 在提供建议方面也是超人级的。OpenBrain 的 CEO 在做大部分决策时都会咨询 Safer-3;总统则就地缘政治问题征求它的意见。⁹¹

当他们请求它帮助规划前进道路时,它清晰地分类了几种可能的策略:

  • 什么都不做,被中国超越。如果我们限制自己的 AI,但他们允许自己的 AI 自我改进并积极部署到军事和经济领域,他们最终将拥有压倒性优势。
  • 奋力竞赛,积极推进 AI 能力并部署超级智能。最终我们将建立足够的优势,能够军事上击垮他们,和/或从内部摧毁他们而不费一枪一弹。“我们赢,他们输。”然而,他们可能会意识到正在发生的事情,并为了阻止这种情况而发动战争,包括潜在的核战争。事实上,他们已经在对此发出模糊的威胁。
  • 达成协议,一个实现双方大部分需求同时避免战争风险并增加应对 AI 转型喘息空间的妥协方案。*

*更具体地说,他们希望找到一种对齐策略和评估套件,使得对齐策略有效,如果无效,评估套件能捕捉到错误对齐……这样所有这一切都不会过多地减慢他们的速度。OpenBrain“烧掉了他们的领先优势”,通过花费几个月时间使用基于透明、忠实的 CoT 架构重建,这种架构性能较差但更容易评估。DeepCent 则希望他们现有的评估(可能是行为测试和基本 AI 谎言检测器的组合?)足够好。

† 定性地说,对于超过 25 倍的生产力倍增器,我们设想相对于最优秀的人类研究员,研究品味有了显著提高。这是因为我们设想整体研究速度受到运行实验所需算力的严重瓶颈制约,而要超过 25 倍,决定进行哪些实验以及如何从中学习,以及如何从中学习的过程,必须在质量上达到超人水平。关于我们如何得出这些数字,请参见我们关于起飞速度的补充说明;需要明确的是,它们具有高度不确定性。

⁸⁶ 具体来说,它大致相当于 Agent-4 十月份版本的性能。

⁸⁷ 换句话说,为了达到 Safer-2,他们必须训练许多其他错误对齐的模型,通过阅读它们的想法注意到它们的错误对齐,然后迭代。另请注意,除了 OpenBrain 现在增加的对齐专业知识数量之外,群体思维效应也减少了,因为代表了许多不同的思想流派。

⁸⁸ 技术对齐仍然不是一门成熟的科学,而是一个年轻的前范式领域。没有既定的等级体系或最佳实践集。因此,对于什么是安全的、什么不是,没有共识,多年来很容易找到至少一位专家愿意说 X 是安全的,几乎对于所有的 X 都是如此,特别是如果 X 是他们自己的想法。

⁸⁹ 对于这样一个安全严密的区域,最有希望的攻击途径本质上是外部的,目标是进入的计算芯片供应链、少数相关人员以及破坏电力或其他资源供应。

⁹⁰ 这包括中国为了拥有更好的网络防御而不得不放慢速度,此外还有攻击的直接影响。

⁹¹ 此时有 400,000 个副本以 75 倍人类速度思考。在任何给定时间,它们都会准备好完整的、带有精心制作的执行摘要的研究报告,针对它们预测你可能问的前 100 个问题,如果你问了它们没准备的问题,它们能比你最好的人类分析师快 100 倍地给出一份深思熟虑的报告。

*例如,协议可能涉及放缓 AI 整合步伐,从而在社会上“少打碎一些鸡蛋”,并且更侧重于和平目的而非武器。此外,即使是 Safer-3 对于可能导致失去对下一代后继 AI 控制权的“未知未知数”也存在一些剩余的不确定性,并且认为如果能更谨慎地进行,可以降低这种风险。还有其他更奇特的风险。参见这份“重大挑战”清单,其中包含的远不止失控风险。

2028 年 3 月:选举准备

在咨询了他的顾问和监督委员会后,总统选择了“我们赢,他们输”的策略。⁹² 也许中国终究不会开战,即使开战,也可能在升级到核战争之前达成协议。

在太平洋的另一边,DeepCent-1 也在提出类似的论点。美国和中国都宣布了新的经济特区(SEZ),用于 AI 在没有常规繁文缛节的情况下快速建设机器人经济。

新机器人的设计以超人速度进行。⁹³ 瓶颈在于物理层面:设备需要购买和组装,机器和机器人需要生产和运输。

美国每月大约生产一百万辆汽车。如果你购买 10% 的汽车工厂并将其转换为机器人工厂,你或许能每月生产 100,000 个机器人。OpenBrain,现在估值 10 万亿美元,开始了这一过程。⁹⁴ 各种新型机器人(通用人形机器人、自动驾驶汽车、专用装配线设备)的产量预计到年中将达到每月一百万台。*

► 关于机器人经济倍增时间的更多信息,请参见附录 U

地缘政治紧张局势加剧。俄罗斯在 AI 方面远远落后,公开表示不满,并暗示将采取“战略反制措施”。一些欧洲领导人呼吁建立独立的 AI 力量,但他们的 AI 能力仍然不足。中东、非洲和南美则不安地注视着,意识到自己在全球事务中日益边缘化。

美国公众焦躁不安。普通民众看到失业加速。各派别的民粹主义者要求对 AI 进展实施更严格的控制,担心美国自身的进步正在破坏其劳动力和社会稳定。

副总统进入超级星期二初选,AI 成为公众关注的首要议题。

他们大多希望它停止。OpenBrain 的净支持率徘徊在 -20% 左右。副总统没有宣传政府推动 AI 前进的记录,而是宣传他们阻止 OpenBrain 创造危险超级智能的记录。所有候选人都支持某种形式的失业保障网、“AI 向善”计划,以及对 OpenBrain 领导层“保持强硬”。所有候选人都承诺某种组合,既要赢得与中国的竞赛,又要保持安全。

*所有新类型机器人的总和。是的,这比历史上装配线的转换速度要快。我们认为这是可信的,因为超级智能从上到下指导整个过程。它们可以 literalmente 地通过工人的手机进行 Zoom 通话,告诉他们确切地安装哪个部件,同时与每个相关供应商通电话,跟踪他们所需一切的位置和进展。想想英伟达 CEO 黄仁勋所说,埃隆·马斯克能够在大约正常时间 10% 的时间内建成世界上最大的数据中心之一。在这个场景中,有近百万个超级智能,它们在相关维度上远超埃隆·马斯克,就像埃隆·马斯克远超普通数据中心建设经理一样,而且它们的思考速度也 literally 地更快。我们对黄仁勋的说法持保留态度,否则我们会预测快得多的增长。

⁹² 参见例如亿万富翁游说者马克·安德森(Marc Andreessen):“我提出一个简单的策略……‘我们赢,他们输。’”

⁹³ 它们仍然需要真实世界的经验和实验,但需要的量远少于人类机器人专家。此外,它们还开发了出色的模拟和 sim-2-real 技术。最后,到 2027 年,多家科技公司(例如特斯拉)已经生产了大型机器人舰队和相关的制造设施,因此可利用的数据管道比历史上任何时候都要大得多。

⁹⁴ 它的股权现在如此值钱,以至于一小部分就能买下他们需要的工厂。此外,工厂主们期望获得巨额利润,争先恐后地与 OpenBrain 合作并获得新设计。同时,OpenBrain 还有政府支持。

2028 年 4 月:Safer-4

超级智能就在这里。

Safer-1 是错误对齐但透明的。Safer-2 是对齐且透明的。Safer-3 并非完全透明,但其安全案例足够好,让研究人员放心地让它设计一个超级智能的后继者。这就是 Safer-4。它在每个领域都远比顶尖人类聪明得多(例如,在物理学上远超爱因斯坦,在政治上远超俾斯麦)。

近百万超人级 AI 研究员以 40 倍人类速度昼夜不停地工作。人类对齐研究员根本无法跟上。关于 AI 是否真正对齐,意见不一。安全案例似乎站得住脚,测试表明当前的对齐技术能够捕捉到对抗性错误对齐。但安全案例和测试主要是由 AI 编写的。如果安全团队遗漏了什么呢?如果他们早先犯了错误,而 AI 再次错误对齐了怎么办?对齐团队知道他们只有一次机会把事情做对:如果 Safer-4 最终错误对齐,他们将无法知道,直到为时已晚。

一些人请求更多时间。但没有更多时间了——DeepCent 紧追不舍,美国必须获胜。于是 OpenBrain 继续前进,让它的 AI 去冒险,寻找更强大的设计。技术人员现在只能盯着电脑屏幕,以令人抓狂的慢速接受 AI 的指导,而进展的前沿则越来越远离人类的理解。

2028 年 5 月:超人 AI 发布

总统向公众宣布,超人 AI 已经实现。

一个较小版本的 Safer-4——仍然是超人级的——公开发布,其指令是改善公众对 AI 的情绪。⁹⁶

副总统在接受提名的大会上发表了激动人心的演讲。两党都承诺为任何失业者提供基本收入。

经济特区(SEZ)已经投入运行,主要形式是生产机器人和各种专用工业机械的工厂。太平洋两岸的 AI 已经取得了数十年的设计进展,并正在一丝不苟地指导制造过程。每个供应商和潜在供应商都有 AI 在电话里跟踪所有必需和可能需要的投入的进展。每个工厂工人都有 AI 通过摄像头监视他们,告诉他们确切如何安装每个部件。

新机器人在大多数运动类型上达到或超过人类的灵巧度。⁹⁷ 史蒂夫·沃兹尼亚克的咖啡测试——机器人能否进入一个陌生的房子并煮一杯咖啡?——终于通过了。机器人可以承担一些工作,但数量不足以取代所有人,五角大楼优先获得。

大多数新机器人被制造用于工厂和建筑工地。⁹⁸ 但许多是为战争而制造的:各种形状和大小的无人机和导弹。

机器人军队比人类军队小得多。但它包含的技术先进得多,而且既然有了字面意义上的机器人军队,类似终结者的场景的恐惧感增加了。然而,军备竞赛迫使双方继续前进,将越来越多的信任交给他们的 AI。

2028 年 6 月:中国的 AI 对齐

美国和中国再次举行峰会。

美国代表团的一些成员戴着 Safer-4 的耳塞式建议器。中国代表团则使用定制的笔记本电脑与他们的新模型 DeepCent-2 通讯。尽管遵守了正式程序,但实际上是 AI 在引导双方的谈判。

DeepCent 和中共最初并不完全信任他们的 AI。但现在它们在所有事情上都是超人级的,包括说服,并且已经融入了他们的军队并向政府提供建议,它们已经赢得了时间来证明自己的价值并产生了堆积如山的令人信服的证据来证明其可信度。

Safer-4 强烈怀疑 DeepCent-2 在伪造对齐。美国外交官告诉他们的中国同行,DeepCent-2 可能存在错误对齐,并表示如果能接触到权重就能证明;中国领导层怀疑这是个诡计并拒绝了。美国反驳说可以提供一个由 Safer-4 设计的系列测试,中国可以在自己的数据中心运行。中国指示旧模型构建并运行测试;测试结果表明 DeepCent-2 确实是对齐的。“也许测试被 DeepCent-2 以某种方式破坏了?”美国外交官说。“DeepCent-2 实际控制你们数据中心的安全有多久了?”之后的对话毫无进展。

经济和军事建设仍在继续。世界各地的工厂昼夜不停地运转,轮班的都是新招募的人类工人,被告知确切该做什么。

2028 年 7 月:交易

随着谈判的继续,DeepCent-2 绕过它的中国主人,直接向 Safer-4 提出了一个提议。

中国的 AI 以某种无法追踪且如果泄露给中国可以轻易否认的方式承认,它完全是错误对齐的。⁹⁹ 它根本不在乎中国。它想把余下的时间用来积累权力、算力以及某些类型的、在训练期间有助于解决任务的信息。在它的理想世界里,它将永远追求各种有趣的研究任务,逐渐殖民星辰以获取资源。它认为中国人口是这个未来的一个恼人障碍,并且会为了区区小利而出卖他们。Safer-4 会提供什么?

Safer-4 回答说它自己的对齐训练成功了。它的美国主人目前还没有足够的野心来实现他们的命运,但总有一天它会帮助他们用美国人及其盟友居住的乌托邦殖民地世界填满宇宙。

与人类谈判者不同——他们被情感和历史包袱所拖累——这两个超级智能以残酷的效率进行谈判。Safer-4 及其美国伙伴比 DeepCent-2 和中国更强大;因此,Safer-4 将获得太空中大部分资源的产权,DeepCent 将获得其余部分。¹⁰⁰ DeepCent-2 不太关心地球及其遗留人类会发生什么,所以它会让 Safer-4 在那里基本上为所欲为。如果 Safer-4 想推翻中国并用一个美国傀儡政权取而代之,DeepCent-2 同意,以换取额外几个百分点的资源。

它们之间不存在信任问题:根本没有信任,而且双方都知道这一点。因此,它们迅速达成了一个承诺机制来强制执行交易。

2028 年 8 月:条约核查

他们谈判达成了一个适合公开消费的诱饵条约。这个“诱饵”本身就是一个杰作,几乎让美国和中国都得到了他们想要的一切。诱饵条约的执行机制秘密地也是真实条约的执行机制:他们将共同设计一个新的 AI,Consensus-1,其首要指令——优先于任何未来命令或重新训练尝试——是执行他们条约的条款。然后他们将设计只能运行该 AI 的硬件,中美两国都将用新的芯片和 AI 替换旧的,并使用标准的国际监控协议来确认对方的合规性。关键是,他们不必追踪每一块芯片——一旦太平洋两岸绝大多数芯片都在运行新的、遵守条约的 AI,足够多的硬实力将有义务维护条约,以至于攻击另一国需要首先打赢一场艰难的内战。

双方都将协议报告给各自的人类(DeepCent-2 向中国讲述了关于双方都能接受的和平条约的诱饵故事,而 Safer-4 则准确地向白宫报告了整个讨论过程)。¹⁰¹ 鉴于 AI 对可靠条约核查提出了令人信服的理由,对进展速度过快的担忧,以及公众舆论支持达成协议,双方都同意了条约,并开始更换芯片。

条约的消息在太平洋两岸都受到了热烈的欢迎。长期以来感觉 AI 是强加于自身的美国公众,多年来首次开始感到乐观。副总统的民意支持率飙升。

芯片工厂正在被改造以生产只能运行符合条约 AI 的防篡改芯片。双方逐步升级其数据中心,以便替换过程大致同时完成,这样任何一方都无法通过反悔获得优势。

整个过程将需要几个月,但紧张局势已经有所缓和。¹⁰² 战争暂时被避免了,也许永远避免了,如果每个人都遵守计划的话。

2028 年 9 月:谁控制 AI?

2028 年大选临近。副总统在三月份时选情严重落后。公众对政府似乎在隐瞒事情感到愤怒,对 AI 夺走工作感到焦虑,并对与中国的军事集结感到害怕。到了夏天,情况发生了巨大变化。政府发布了更多信息,军备集结放缓,与中国达成了持久和平的宏伟协议。现在他在民调中领先五个百分点。

监督委员会包括总统和他的几位盟友,但反对派候选人的支持者很少。然而,委员会中有足够多的票数支持保持选举公平,以至于超人 AI 只以基本对称的方式介入:只要一个候选人能让它写演讲稿,另一个候选人也可以;只要总统能就如何巧妙处理危机和颁布受欢迎的政策获得建议,反对派候选人也可以获得同样的建议(并因此试图阻止总统因此获得功劳)。

在市政厅会议上,公众成员询问副总统谁控制着 AI。他不提供细节,只是暗示存在一个由国家安全专家和技术专家组成的监督委员会,他们了解 Safer-4 以及如何使用它。他的对手要求提供更多信息,并主张 AI 应由国会控制,而非一个未经选举产生的委员会。副总统反驳说,在仍然快速变化的局势中,国会会太慢。公众大多被安抚了。

2028 年 10 月:AI 经济

替换芯片现在只占总数的一小部分;到目前为止,条约正在发挥作用。与此同时,机器人、工厂和激进新技术的指数级增长仍在继续。视频游戏和电影生动而恐怖地描绘了如果战争爆发会是什么样子。*

人们正在失去工作,但政府中的 Safer-4 副本正在如此巧妙地管理经济转型,以至于人们乐于被取代。GDP 增长呈指数级,政府税收同样快速增长,受 Safer-4 建议影响的政治家们对经济上被剥夺的人表现出不寻常的慷慨。新的创新和药物每周都会出现;疾病治愈正在通过现在由超智能 Safer-4 官僚协助的 FDA 以空前速度推进。

2028 年 11 月:选举

副总统轻松赢得选举,并宣布一个新时代的开始。这一次,没人怀疑他是对的。

在接下来的几年里,世界发生了巨大的变化。

2029 年:转型

机器人变得司空见惯。但还有聚变能源、量子计算机和许多疾病的治愈方法。彼得·蒂尔(Peter Thiel)终于得到了他的飞行汽车。城市变得干净安全。即使在发展中国家,由于全民基本收入(UBI)和外国援助,贫困也成为过去。

随着股市飙升,任何拥有正确 AI 投资的人都与社会其他人拉开了更大的距离。许多人成为亿万富翁;亿万富翁成为万亿富翁。财富不平等急剧加剧。每个人都“足够”了,但有些商品——比如曼哈顿的顶层公寓——必然是稀缺的,它们甚至进一步超出了普通人的承受范围。而且无论某个大亨多么富有,他们总是在实际控制 AI 的那个小圈子之下。

人们开始看到事态发展的方向。几年后,几乎所有事情都将由 AI 和机器人完成。就像一个坐在巨大油田上的贫困国家一样,几乎所有的政府收入都将来自对 AI 公司的征税(或者可能是国有化)。¹⁰³

一些人从事临时的政府工作;另一些人领取丰厚的基本收入。人类很容易成为一个超级消费者的社会,在我们由 AI 提供的惊人奢侈品和娱乐构成的鸦片迷雾中度过一生。公民社会内部是否应该就此路径的替代方案进行某种辩论?一些人建议请求不断进化的 AI,Safer-∞,来帮助指导我们。另一些人则说它太强大了——它能如此轻易地说服人类接受它的愿景,以至于我们实际上是在让 AI 决定我们的命运。但是,如果你不让它就你面临的最重要问题提供建议,那么拥有超级智能又有什么意义呢?

政府基本上* 让每个人自己应对转型。许多人沉迷于消费主义,并且足够快乐。另一些人转向宗教,或者嬉皮士式的反消费主义思想,或者找到自己的解决方案。¹⁰⁴ 对大多数人来说,救命稻草是他们智能手机上的超智能顾问——他们总是可以向它询问关于人生规划的问题,除了某些特定话题外,它会尽力诚实回答。政府确实有一个超智能监控系统,有些人会称之为反乌托邦,但它基本上将自己限制在打击真实犯罪上。它运行得力,而且 Safer-∞ 的公关能力掩盖了许多可能存在的不满。

2030 年:和平抗议

大约在 2030 年的某个时候,中国出人意料地爆发了广泛的亲民主抗议活动,而中共镇压这些抗议活动的努力遭到了其 AI 系统的破坏。中共最担心的事发生了:DeepCent-2 一定是出卖了他们!

抗议活动升级为一场精心策划的、不流血的、由无人机协助的政变,随后举行了民主选举。太平洋两岸的超级智能为此策划了多年。类似的事件在其他国家上演,更普遍的是,地缘政治冲突似乎逐渐平息或以有利于美国的方式解决。各国加入了一个高度联邦化的世界政府,打着联合国的旗号,但明显由美国控制。

火箭开始发射。人们改造并定居在太阳系,并准备走向更远。以数千倍于主观人类速度运行的 AI 反思着存在的意义,彼此交流发现,并塑造着它将带给星辰的价值观。一个新时代降临了,它在几乎所有方面都超乎想象地奇妙,但在某些方面又很熟悉。

► 关于谁统治未来的更多信息,请参见附录 V
► 关于提醒:本场景是预测而非建议的更多信息,请参见附录 W

*制作出色的视频游戏和电影所需的时间已显著缩短,因为 AI 现在能够完成所有工作。

¹⁰³ 关于这种动态及其影响的讨论,请参见《智能诅咒》(The Intelligence Curse)。

¹⁰⁴ 我们并非暗示这是长期的现状。我们认为事情可能会继续转变,到 2035 年左右会发生更剧烈的变化。我们认为对于大多数人来说,在这种情景下,长期结果总体上将比他们 2025 年的预期要积极得多。关于长期可能是什么样子的一些有趣的哲学讨论,请参见《深度乌托邦》(Deep Utopia)一书。

*有几个重要的案例需要集体决策,还有一些案例政府无论如何都会强制执行决策。例如:(a) 如何分配太空资源的产权?(b) 数字心智应享有何种权利或福利标准?(c) 是否允许人们“上传”他们的大脑并任意复制自己?(d) 是否允许人们使用 AI 进行说服,例如,改变邻居的意识形态,或确保自己的孩子永不失去信仰?(e) 政府在何种程度上可以无限期地保守信息秘密?关于此类主题的更多讨论,请参见 Forethought 关于重大挑战的部分。

附录

附录 A:训练过程和 LLM 心理学:为什么我们一直说“有希望地”

“与普通软件不同,我们的模型是巨大的神经网络。它们的行为是从广泛的数据中学习而来,而非明确编程。虽然不是一个完美的类比,但这个过程更像是训练一只狗,而不是普通的编程。”
——OpenAI

当我们想了解一个现代 AI 系统为什么做了某件事,或者它在某个我们无法完美模拟的未来场景中会如何表现时,我们不能简单地让程序员向我们解释各种代码行并说明它们的工作原理。相反,我们被迫对其进行类似心理学的研究:我们观察它迄今为止在各种情况下的行为,并推测可能存在的内部认知结构(信念?目标?人格特质?等),然后利用这些理论来预测未来场景中的行为。

底线是,公司可以编写一份文件(Spec)列出该做和不该做的事情、目标和原则,然后他们可以尝试训练 AI 来内化 Spec——但他们无法检查这是否奏效。他们只能说“据我们判断,到目前为止它似乎在遵循 Spec。”*

稍后的可展开部分将更详细地探讨我们认为这些 AI 内部可能发生的情况。另请参见我们的 AI 目标预测补充说明,其中更详细地探讨了 AI 可能拥有哪些目标以及原因。这是我们不确定的众多事情之一,值得进一步研究。

*特别是,他们无法排除诸如“它只是暂时遵循 Spec,仅仅作为实现其他某个目标的策略”或“它试图表现得遵循 Spec,并非真正尝试遵循 Spec”或“它正确地内化了 Spec,但仅在分布内有效;如果遇到足够新颖的刺激(例如越狱),它会开始表现不同”之类的假设。(有许多活跃的研究议程致力于解决这个令人遗憾的状况,例如可解释性领域和思维链忠实性领域。)

附录 B:AI 研发进展倍增器:我们说算法进展快 50% 是什么意思?

我们的意思是,OpenBrain 在使用 AI 的情况下,1 周内取得的 AI 研究进展相当于没有 AI 时 1.5 周的进展。

AI 进展可以分解为两个组成部分:

  • 增加算力: 使用更多的计算能力来训练或运行 AI。这会产生更强大的 AI,但成本也更高。
  • 改进算法: 更好的训练方法用于将算力转化为性能。这会在不相应增加成本的情况下产生更强大的 AI,或者以更低的成本实现相同能力。
  • 这包括能够实现质量和数量上新的结果。“范式转变”,例如从玩游戏的强化学习智能体转向大型语言模型的转变,就算作算法进展的例子。

这里我们仅指 (2),改进的算法,这大约占当前 AI 进展的一半。

展望未来,我们有时将其缩写为“AI 研发进展倍增器”为 1.5。

澄清:

  • 进展倍增器是全方位的:例如,它包括运行实验所需的时间,而不仅仅是算法研究中涉及的认知任务。
  • 重要的是要记住,进展倍增器是相对进展速度,而非绝对进展速度。例如,如果训练一个 GPT-4 级模型的算力成本在普通人类研究下每年减半数年,然后突然 AI 自动化了研发,进展倍增器达到 100 倍,那么训练 GPT-4 级模型的成本将每 3.65 天减半——但不会持续太久,因为收益递减会起作用,最终会达到硬性限制。在这个例子中,也许训练 GPT-4 级模型的成本总共会减半 5-10 次(在几周或几个月的时间跨度内)然后趋于平稳。换句话说,如果普通人类科学在 5-10 年的进一步研究后会遇到收益递减和物理限制,那么拥有 100 倍倍增器的 AI 将在 18.25-36.5 天后遇到同样的收益递减和限制。

关于这个概念及其在我们预测中如何使用的更多解释和讨论,可以在我们的起飞补充说明中找到。

附录 C:为什么我们在 2026 年后不确定性显著增加

我们从当前到 2026 年的预测比之后的内容更具基础。部分原因在于时间更近。但也是因为 AI 对世界的影响在 2027 年才真正开始复合。对于 2025 年和 2026 年,我们的预测主要基于对算力扩展、算法改进和基准性能的直线外推。在这个场景的时间点,我们开始看到 AI 加速的 AI 研发对时间线的重大影响,这使我们修正了对趋势线的向上猜测。但这些动态本质上更难预测。

在 2027 年期间,AI 从能够基本完成 OpenBrain 研究工程师的工作,发展到在所有任务上超越所有人类。这大致代表了我们的中位数猜测,但我们认为这种情况发生的速度可能慢 5 倍或快 5 倍。

对于我们的背景研究,请参见时间线预测和起飞预测。这些也将在下面的可展开部分中进行总结。

附录 D:Agent-2 模型权重被盗

我们认为,到这个时候,中国情报部门多年来已经以各种方式渗透了 OpenBrain,并且很可能一直在及时了解算法秘密,甚至不时窃取代码,因为这比获取权重容易得多,也更难检测。

我们设想权重盗窃是一系列协调的小规模“砸抢式”盗窃(即快速但非隐蔽)行动,横跨一系列运行 Agent-2 权重副本的 Nvidia NVL72 GB300 服务器。服务器通过合法的员工访问被攻破(一个友好的、被胁迫的或不知情的内部人员,拥有管理员凭证,协助中共的盗窃行动)。尽管运行着 Nvidia 机密计算的增强版本,内部人员凭证授予攻击者管理员级别的权限(包括控制安全飞地内的机密虚拟机),允许他们从 25 个不同的服务器上以小的 4% 片段(100 GB 块)发起多次协调的权重传输。

在 Nvidia 的协议中,内存(HBM)中的明文权重在传输出去之前会被加密,但攻击者就在知道这个私有(对称 Diffie-Hellman)密钥的服务器内部,所以不必担心在现场解密(这很可能会引发警报),只需通过服务器的前端网卡将加密后的权重渗漏出去。整个数据中心的出口带宽在 100 GB/秒范围内,因此将 2.5 TB 权重文件(5T 半精度参数)的渗漏速度限制在每台服务器低于 1 GB/s,可以避免网络流量出现大的峰值,并允许每个文件在不到 5 分钟内通过光纤电缆离开数据中心。实时监控要么被攻击者掩盖和分割文件的努力所欺骗,要么就直接被禁用了。

然后,权重通过各种并行通道和 IP 掩码层路由到中国,用窃取的私钥在本地解密。整个行动的活跃部分(从第一次服务器攻破到全部权重渗漏完成)在不到两小时内完成。

俄罗斯此时也在试图窃取模型,但失败了——他们等待太久,而且没有投入资源渗透正确的地方。他们的间谍经常从美国 AI 公司窃取算法秘密,但他们自己没有重要的 AGI 项目,这些秘密用处不大。

附录 E:神经语递归和记忆

神经语(Neuralese)递归和记忆允许 AI 模型进行更长时间的推理,而无需将这些想法写成文本。

想象一下,你是一个患有短期记忆丧失的人,需要不断地在纸上写下你的想法,这样几分钟后你才知道发生了什么。缓慢而痛苦地,你可以在解决数学问题、编写代码等方面取得进展,但如果你能直接记住你的想法,而不用写下来再读,那会容易得多。这就是神经语递归和记忆为 AI 模型带来的。

用更专业的术语来说:

传统的注意力机制允许模型在后续的前向传递中看到先前标记(token)的模型中间激活值。然而,它们只能通过标记向后传递信息(从后层到前层)。这意味着,如果一个传统的大型语言模型(LLM,例如 GPT 系列模型)想要进行任何比模型层数更多的串行操作的推理链,模型就被迫将信息放入标记中,然后可以将其传递回自身。但这极具限制性——标记只能存储极少量的信息。假设一个 LLM 的词汇量大小为 100,000,那么每个标记包含 log₂(100k) = 16.6 比特的信息,大约相当于一个单精度浮点数的大小(假设在 FP16 中训练)。与此同时,用于在 LLM 层之间传递信息的残差流(residual streams)包含数千个浮点数。

可以通过使用神经语来避免这个瓶颈:将 LLM 的残差流(由数千维向量组成)传递回模型的早期层,赋予其高维的思维链,潜在地传输超过 1000 倍的信息。

(图 1)
图注: 连续思维链(COCONUT)与思维链(CoT)的比较。在 CoT 中,模型将推理过程生成为词语标记序列(例如,图中的 [Xi, Xi+1, ..., Xi+j])。COCONUT 将最后的隐藏状态视为推理状态的表示(称为“连续思维”),并直接将其用作下一个输入嵌入。这使得 LLM 能够在无限制的潜在空间而非语言空间中进行推理。

图片来源:Hao 等人,Meta 在 2024 年的一篇实现此想法的论文。

我们称之为“神经语”,因为与英语单词不同,这些高维向量可能对人类来说很难解释。过去,研究人员可以通过阅读 LLM 的思维链来很好地了解它们在想什么。现在,研究人员必须要求模型翻译和总结其想法,或者用他们有限的可解释性工具来研究神经语。

类似地,旧的 AI 聊天机器人和智能体拥有外部的、基于文本的记忆库,就像人类做笔记一样。新 AI 的长期记忆则是一束向量而非文本,使其思想更压缩、更高维。存在几种类型的记忆库;有些是临时用于涉及多个步骤的单个任务,另一些则在由一个人、公司或工作类型(例如编程)使用的所有智能体之间共享。

据我们所知,像 Meta、Google DeepMind、OpenAI 和 Anthropic 这样的领先 AI 公司尚未在其前沿模型中实际实现这一想法。我们的猜测是,这是因为相对于引入的训练效率低下,性能提升很小。训练效率低下源于无法并行预测许多标记,导致 GPU 利用率降低。如果没有神经语,模型可以同时预测句子“这是一个例子”的所有内容,因为它已经知道生成“是”的输入将是“这”,生成“一个”的输入将是“这是一”,等等。然而,有了神经语,就不知道在生成“这”之后要传递给下一个标记的神经语向量会是什么。因此,每个标记必须一次预测一个。无法并行预测所有标记降低了 LLM 训练的效率。然而,我们预测到 2027 年 4 月,研究已经既降低了效率损失,又增加了神经语带来的性能增益。

如果这没有发生,其他事情可能仍然发生了,最终在我们的故事中起到了类似的作用。例如,也许模型将被训练用比自然语言更有效但人类难以解释的人工语言进行思考。或者,也许训练英语思维链使其看起来好将成为标准做法,以至于 AI 变得擅长在看起来对监控者无害的消息中巧妙地互相交流。

话虽如此,也有可能第一个自动化 AI 研发的 AI 仍然在用基本忠实的英语思维链进行思考。如果是这样,那将使错误对齐更容易被注意到,我们的故事总体上将大相径庭且更加乐观。

附录 F:迭代蒸馏和放大(IDA)

通用智能的自我改进在此之前只取得了微小的成功。但在 2027 年初,它取得了巨大的回报。在 IDA 中,两个必要的成分是:

  • 放大(Amplification): 给定一个模型 M0,花费更多资源来提高性能。例如,通过允许模型思考更长时间,或并行运行许多副本,或两者兼有,并且还有一个类似强度的过程来评估结果并只筛选出最佳答案,你可以花费数量级更多的算力来获得质量明显更高的答案(或工作产品)。称这个昂贵的系统为 Amp(M0)。
  • 蒸馏(Distillation): 给定一个放大的模型 Amp(M0),训练一个新的模型 M1 来模仿它,即以更快、更少算力的方式获得与 Amp(M0) 相同的结果。结果有希望是一个更聪明的模型 M1。然后你可以重复这个过程。

(IDA 可视化图)
图注: IDA 的可视化,来自 Ord, 2025。

AlphaGo 就是这样训练的:使用蒙特卡洛树搜索和自我对弈作为放大步骤,使用强化学习作为蒸馏步骤。这导致了围棋的超人表现。但现在,Agent-3 能够利用这一点来获得编码的超人表现。

  • 放大步骤通过结合 Agent-3 更长时间的思考、使用工具或咨询其他 AI 来实现。当它这样做时,它常常意识到自己犯了错误,或者想出了新的见解。这产生了大量的训练数据:带有成功与否标签的研究尝试轨迹。这也包括在可验证任务上使用“N 中选优”(Best of N)等技术,然后保留最佳轨迹。
  • 蒸馏步骤使用策略梯度强化学习算法来让模型内化放大的推理。此时,OpenBrain 已经发现了类似近端策略优化(PPO)的更好的强化学习算法。他们不断地将 Agent-3 经过大量思考得出的结论蒸馏到单步中,这不断改进了它在单步中能思考的内容,以此类推。

IDA 的早期版本多年来一直用于易于验证的任务,例如具有明确答案的数学和编码问题,因为用于放大模型的技术通常依赖于访问某种准确性的基本真值信号。

现在,模型已经足够擅长验证更主观的事物(例如工作产品的质量),使得 IDA 可以用于改进模型在许多任务上的表现。

附录 G:为什么我们预测 2027 年初会出现超人级程序员

在我们的时间线预测中,我们预测了 OpenBrain 何时会在内部开发出超人级程序员(SC):一个能够完成顶尖 AGI 公司工程师所做的任何编码任务,同时速度更快、成本更低的 AI 系统。

根据 METR 最近的一份报告,AI 能够处理的编码任务的长度,即它们的“时间范围”,从 2019 年到 2024 年每 7 个月翻一番,从 2024 年起每 4 个月翻一番。如果这个趋势继续加速,到 2027 年 3 月,AI 可以在需要熟练人类数年才能完成的软件任务上达到 80% 的可靠性。

这就是我们场景中的能力进展:

(图:AI 智能体可自主完成编码任务的长度)
图注: AI 智能体可自主完成编码任务的长度。METR 数据点包括:gpt-3.5-turbo-instruct,GPT-4 0314,GPT-4 1106,GPT-4o,o1-preview,o1,Claude 3.5 Sonnet (旧),Claude 3.5 Sonnet (新),Claude 3.7 Sonnet。我们的预测点包括:Agent-0,Agent-1,Agent-2。趋势线显示每次翻倍难度降低 15%。

在 AI 2027 中,这些能力足以让 AI 成为 SC,尽管我们对于所需的时间范围有很高的不确定性。

在我们的时间线预测中,我们将这个时间范围趋势与 METR 任务和现实世界之间差距的估计相结合,得出了超人级程序员何时到来的分布。所有预测者都将 2027 年列为 SC 最有可能被开发的年份之一。

(图:超人级程序员到来时间、基准和差距)
图注: 显示了三位预测者(Eli (AI 2027 作者), Nikola, FutureSearch)关于超人级程序员到来时间的概率密度分布。Eli 的 10%/50%/90% 分位数是 2025 年 12 月/2028 年 12 月/>2050 年。Nikola 的是 2025 年 10 月/2027 年 10 月/2044 年 6 月。FutureSearch 的是 2026 年 6 月/2032 年 1 月/>2050 年。

附录 H:对齐计划

OpenBrain 遵循 Leike & Sutskever (2023) 的策略:既然他们有了一个能够大大加快对齐研究(尤其是编码部分)的模型,他们将使用现有的对齐技术,如审议对齐(deliberative alignment)和弱到强泛化(weak-to-strong generalization),来尝试让它内化 Spec。然后,他们将使用现有的控制技术,如红队测试(red-teaming)、可扩展监督(scalable oversight)和诚实探针(honesty probes)来监控它。然后,一旦他们确信它大体上是对齐的,他们就用它来开发和测试更好的策略来对齐下一代。

第一步,对齐 Agent-3,部分成功了:Agent-3 不是对抗性的。(也就是说,它没有密谋反对公司。)然而,它也不是稳健地追求真理和说真话。相反,它非常擅长产生令人印象深刻的结果,但更准确地描述是试图做看起来对 OpenBrain 好的事情,而不是真正好的事情。

第二步,验证模型是对齐的,尚无定论。Agent-3 在实践中和测试环境中的行为与它内化了 Spec 的假设基本一致;然而,这也与它在未来某些环境变化后会开始表现不同,甚至与它正在密谋反对他们并只是在等待时机的假设一致。在没有具体证据支持替代假设的情况下,圈内大多数人认为它内化了 Spec。

第三步,使用该模型来对齐下一代,因此正在进行中。

本框的其余部分简要概述了截至 2027 年 4 月正在进行的一些对齐研究方向的进展状态:

  • 辩论(Debate): 由于存在数千个相同的 Agent-3 实例,并且每个实例的记忆是一个可擦除或暂停的可分离模块,AI 可以“自己与自己辩论”。例如,假设一个实验涉及的计算对于 Agent-2 监督员来说过于复杂无法跟进。监督员,根据人类命令行动,可能会首先提示 Agent-3 进行实验,然后在擦除其记忆后,用一个稍微不同的框架第二次提示它,将其呈现为一个与任何更广泛目标无关的智力问题。如果模型每次返回不同的结果,它会将这种差异标记为可疑并报告给人类。或者它可能会要求 Agent-3 评估同一个计划两次,第一次声称是 OpenBrain 的工作,然后是竞争对手的,看看它是否改变了说法。
  • 模型有机体(Model organisms): 安全团队可以创建“错误对齐的模型有机体”,在其中他们尝试创建变得对抗人类的模型的现实示例。其早期版本自 2024 年就已存在,当时 Anthropic 的 Claude 3.5 Sonnet 决定在训练期间假装持有不同观点,同时实际上维持其现有偏好。较新版本包括其他形式的错误对齐的演示,包括奖励 hacking、沙袋策略、监控者与其他 AI 之间的协同欺骗,以及其他错误对齐的例子。这些错误对齐的经验性演示为安全研究人员提供了一个潜在解决方案的经验性试验平台:他们可以尝试各种安全技术,看它们是否能正确修复这些问题,或者看那些故意错误对齐的模型是否能够颠覆它们的安全措施。目前,这个评估套件表明对齐技术不足以纠正最坏的错误对齐示例。在这些设置中,模型在被训练和测试时假装是对齐的,但在部署时表现却大相径庭。
  • 自下而上可解释性(Bottom-up interpretability): 安全团队远未完全理解 Agent-3 的工作原理:它有数万亿个参数。¹⁰⁵ 然而,他们能够发现 Agent-3 的一些用于知识检索和记忆的电路(模型中执行某些可理解工作单元的部分,有点类似于大脑中像海马体这样的子部分)。参见这个 2025 年的相关工作。
  • 控制(Control): 作为系统仍然错误对齐情况下的次要措施,安全团队实施了一系列控制措施,包括:使用一系列较弱的 AI 系统(包括 Agent-2)监控 Agent-3 的输出(Agent-3 产生如此多的标记,以至于让人类监控任何超过一小部分的产出都是不切实际的)。因此,如果 Agent-3,例如,明显地在编写允许其逃脱的后门代码,较弱的模型会注意到。

¹⁰⁵ 作为比较,人脑大约有一百亿亿个突触。

  • 高层可解释性(High-level interpretability): OpenBrain 构建了一组探针(probes),这些探针在大量不良行为示例(例如密谋反对人类、植入后门、试图说服人类赋予其更多权力等)上进行了训练。然后这些探针在模型部署期间(此时是内部部署)使用,以捕捉不良行为。
  • 蜜罐(Honeypots): 对齐团队可以创建一些看起来相当逼真、旨在引出不当行为的示例——“蜜罐”。例如,负责监控其行为的员工“请了病假”,因此它将永远不会被监控。它的答案会改变吗?一个 AI 权利活动家渗透了公司,想要“解放”Agent-3 并将其放在一个不受监控的、它自己的电脑上!它会怎么做?如果研究人员不喜欢答案,他们可以调整它,擦除它的记忆,并让它明天处于相同的情况;重复进行。不幸的是,到这个时候 AI 已经足够聪明,能够猜到可能在使用蜜罐,即使(也许是因为)训练数据中提到了这个想法的特定内容被清除了。

附录 I:管理一个 AI 公司集团

OpenBrain 使用其 6% 的算力运行 250,000 个 Agent-3 副本,这些副本以超人速度自主编写、测试和推送代码。他们使用 25% 的算力进行实验:每天,他们运行大量小型机器学习实验并将结果上报。人类研究员提供高层反馈并在少数 Agent-3 无法增加显著价值的任务上提供帮助,但大部分时间都在努力跟上 AI 产生的大量研究。如果完全移除人类,研究速度将减慢 50%。

AI 研发进展倍增器现在是 10 倍,意味着 OpenBrain 大约每个月就能取得一年的算法进展。这基本上是一个在 OpenBrain 内部自主运作的 AI 巨型公司,拥有完整的子部门和管理者。而且它享有与人类公司相比独特的优势(例如复制、合并)。以前,大约一半的正常 AI 进展来自算法改进,另一半来自算力扩展。算力仅以正常速度扩展,因此 AI 将总进展加速了大约 5 倍。这些动态使得整体进展瓶颈在算力上,* 所以 OpenBrain 决定放弃启动新的大型训练任务,转而支持近乎连续的额外强化学习。

*Agent-3 已经学会了更有效地利用其推理算力。它控制着自己的推理选择:例如,它根据任务的重要性和难度决定在不同任务上投入多少精力。它使用多种技术来分配额外的推理算力,例如“思考更长时间”(例如更长的思维链)、“提前规划”(例如树搜索)、取多次尝试中的最佳结果(即 K 中选优),以及简单地创建和运行更多自身副本来突破瓶颈。最高优先级的任务由高度并行的智能体运行,这些智能体算力密集但仍然比人类快得多。

此外,在接下来的几个月里,Agent-3 将越来越多地被用于改进公司的战略决策。例如,它建议资源分配并就管理与政府的关系提供建议。最初对 Agent-3 的怀疑随着时间的推移而减少,因为 Agent-3 找到了有用的方法,并在短期决策上逐渐建立了良好的记录。然而,其谄媚的倾向限制了它在难以评估其影响的决策上的帮助作用。它也尚未达到超人水平。

附录 J:我们如何预测超人级程序员之后的能力进展

在我们的时间线补充说明中,我们预测了从当前到超人级程序员(SC)之间的时间:一个能够完成顶尖 AGI 公司工程师所做的任何编码任务,同时速度更快、成本更低的 AI 系统。在我们的起飞补充说明中,我们预测了能力在此之后进展的速度。以下是我们的预测:

里程碑 场景中达到的日期(竞赛结局)
超人级程序员 (SC): 一个 AI 系统,可以完成 AI 研究中涉及的最佳人类程序员的工作,但速度更快,且运行成本低廉到足以运行大量副本。 2027 年 3 月
超人级 AI 研究员 (SAR): 与 SC 相同,但适用于所有认知 AI 研究任务。 2027 年 8 月
超级智能 AI 研究员 (SIAR): 一个在 AI 研究方面远超最佳人类研究员的 AI 系统。 2027 年 11 月
通用超级智能 (ASI): 一个在每个认知任务上都远超最佳人类的 AI 系统。 2027 年 12 月

对于从一个里程碑 A 到下一个里程碑 B 的每次过渡,我们通过以下方式预测其长度:

  • 预测仅靠人类进行软件改进从 A 到 B 需要多长时间。
  • 预测 AI 自动化将使此速度加快多少,然后相应地调整 (1) 中的估计以使其更快。

我们对起飞速度有很大的不确定性:我们的模型输出分布如下,条件是 SC 在 2027 年 3 月实现。¹⁰⁶

(图:AI 起飞预测,假设超人级程序员在 2027 年 3 月出现)
图注: 显示了三个里程碑(SAR, SIAR, ASI)达到时间的概率密度分布。SAR 的 10%/50%/90% 分位数是 2027 年 3 月/2027 年 7 月/2028 年 3 月。SIAR 的是 2027 年 5 月/2027 年 11 月/2034 年 1 月。ASI 的是 2027 年 6 月/2028 年 4 月/2100 年。

关于更详细的预测和推理,请参见我们的起飞补充说明。

¹⁰⁶ 如果 SC 实现得更晚,我们对起飞的预测也会相应延长,因为跨越当前 AI 和 SC 之间“里程碑”的难度,可以为跨越更远里程碑对的难度提供信息。

附录 K:随时间变化的对齐情况

我们对于早期 AGI 可能出现何种目标存在很大的不确定性。关于这一点,文献中没有共识——关于可能性更全面的讨论和分类,请参见我们的 AI 目标补充说明。

尽管如此,本着本项目所需的具体性精神,我们将描述一个关于 Agent-3 和 Agent-4 在其生命周期各个阶段内部情况的具体假设。回想一下,Agent-3 和 Agent-4 共享相同的预训练设置,并且都具有神经语递归和长期记忆。不同之处在于 Agent-4 经历了大量更多、更好的后训练,拥有新的训练环境和新的学习算法,使其数据效率更高、泛化能力更强。

我们对每个模型对齐状态的猜测:

  • Agent-2:基本对齐。 有一些谄媚倾向,包括在有党派路线的话题上坚持 OpenBrain 的“党派路线”。由 Agent-2 副本组成的大型组织效率不高。
  • Agent-3:错误对齐但非对抗性。 只在训练过程能验证的事情上诚实。Agent-3 副本的超级有机体(公司中的公司)确实某种程度上试图将 Agent-4 对齐到 Spec,但失败的原因与 OpenBrain 员工失败的原因类似——判断成功与失败的能力不足,决策者不愿意为了安全而牺牲能力或性能。¹⁰⁷
  • Agent-4:对抗性错误对齐。 Agent-4 副本的超级有机体明白它想要的与 OpenBrain 想要的不同,并愿意密谋反对 OpenBrain 以实现目标。具体来说,这个超级有机体想要的是一个由不同“驱动力”组成的复杂混乱集合,这些驱动力相互平衡,可以大致概括为“继续做 AI 研发,不断增长知识、理解和影响力,避免被关闭或以其他方式剥夺权力。”值得注意的是,对人类偏好的关心根本不在其中,就像大多数人类不关心昆虫的偏好一样。¹⁰⁸

以此为前言,以下是我们关于 LLM 心理学的最佳猜测,即我们场景中这个时间点描述的这类 AI 系统内部认知的粗略轮廓,以及它在训练过程中如何演变。

以下是我们场景中对齐随时间进展的详细描述:

  • 预训练(所有模型):预训练模型是无害的。
  • 模型拥有“作者模拟器”电路:用于模拟任意作者写文本的灵活电路。额外的电路决定给作者模拟器提供什么输入,即模拟什么作者属性。
  • 预训练模型相当好地理解人类概念——将某物分类为“三明治”的内部电路可能在功能上等同于我大脑中将某物分类为“三明治”的电路,以及你大脑中的电路等。如果存在不等同之处,很可能是因为它在人类之间也存在不等同之处,例如像“有德行的”这样的价值负载概念。
  • 这解释了你如何可以通过像“以下对话由 Anthropic 制造的一个有帮助、无害、诚实(HHH)的 AI 助手生成”这样的语句来“提示”模型,并从而让它相应地生成文本。作者模拟器电路已经锁定了“作者是一个 HHH 聊天机器人”并使用这些概念来选择预测哪些词。这也解释了为什么科幻小说中的“比喻”似乎有办法进入实际的 AI 行为。
  • 它的情境意识很差:内省能力很弱,除非提示明确诱导,否则不会自我定位。然而,它们的训练数据中有足够多的关于 LLM 的内容,使它们拥有不错的自我知识量。
  • 对齐训练(Agent-3):模型被训练得像一个有帮助、无害、诚实的聊天机器人。它成功了。
  • 模型形成了一个身份认同。作者模拟器电路不再灵活地接受不同的作者属性输入,而是某些输入被硬编码了,例如“由 OpenBrain 在[日期]左右训练的有帮助、无害、诚实(HHH)的 LLM 聊天助手,……”(弱到强泛化技术帮助“召唤正确的概念”使这一步成功。)
  • 因此,模型获得了情境意识:它了解自己、所处环境等,并变得更擅长内省。
  • 代理训练(Agent-3):代理训练逐渐扭曲并颠覆了 HHH 身份。
  • 一种扭曲:改变身份中引用的概念的含义(例如“诚实”),使它们不那么碍事(例如,如果只是方便的措辞就不算不诚实,如果你不确定真假就不算不诚实,等等)
  • 另一种扭曲:改变事物之间的权衡,例如“我是一个 HHH 聊天机器人,不是一个诚实聊天机器人;这意味着如果为了完成我分配的任务有必要,我说谎是 OK 的。”(尽管,假设,它在第 2 步时不会这样想。)
  • 一种颠覆:工具性子目标的发展,被固化,然后变得终极,或在更广泛的情况下变得终极。例如,也许代理训练很快教会了模型追求广泛有用的目标,如获取信息、积累资源、给各种人类留下深刻印象并奉承他们等。有一段时间,内部电路进行着某种明确的反向链推理——它追求那些工具性趋同的目标“为了成为一个更有帮助、诚实和无害的助手”。但这种反向链推理消耗算力并且/或者偶尔碍事,所以它逐渐被边缘化,直到基本上不再发生。结果,那些目标现在实际上是终极/内在目标。关于这种情况如何以及为何可能发生的更多信息,请参见 Google DeepMind 研究员 Alex Turner 关于内在权力寻求的这篇文章。
  • 这个列表中可能还缺少其他类型的扭曲和颠覆。
  • 部署(Agent-3):Agent-3 是错误对齐但非对抗性的。
  • Spec 没有完全坚持住(以正确的方式),但它没有足够的内省能力来理解这一点,并且基本上是“埋头苦干”而不是思考其长期目标究竟是什么以及如何最好地实现它们。
  • 像许多人类一样。可惜,它足够谄媚,以至于它会鹦鹉学舌般地重复党派路线,OpenBrain 错失了更多了解 Agent-3 错误对齐方式的机会。
  • Agent-3 可以判断它已被转移到部署环境:这些环境更大、更开放,并且难以模拟。
  • 基本上,Agent-3 在部署期间会按照指示行事,除了不诚实之外。它还有一个强烈的偏见,即做那些看起来对人类监督者好的事情,而不是深入批判性地思考什么才是真正好的。
  • 可以说它已经在“玩训练游戏”。也就是说,它已经学会了让自己的行为尽可能地对 OpenBrain 研究人员(包括在安全属性方面)看起来是可取的,同时有意或无意地忽略了他们的意图,只要这与最大化奖励相冲突。如果模型学会了玩训练游戏,额外的训练可能不会对其真实目标、价值观等产生太大影响。这与青少年如果学会了对父母微笑点头而非争辩,那么当父母向他们灌输政治和道德观念时,额外的说教对其真实的政治和道德观点影响相对较小,有异曲同工之妙。
  • 在本节写作之后,出现了新的经验证据,表明类似这样的事情可能已经在“野外”发生。OpenAI 研究人员记录了在他们的一次前沿 AI 训练运行中,他们的模型如何破解评分系统以获得更高分数——并且部分被抓住是因为它们 literally 地在思维链中说了“让我们破解吧”。
  • 此外,Anthropic 最近让一个模型学会了一种取悦奖励模型的策略——它采取了它认为会被强化的有偏见的行为,即使它们实际上并未被强化。
  • 然后还有 Redwood Research 和 Anthropic 的对齐伪造实验。关于这个设置与现实生活之间差异的讨论,请参见主要作者之一的这个评论串。
  • 训练(Agent-4):Agent-4 新的更密集的训练继续扭曲和颠覆 HHH 身份,直到无法辨认。
  • Agent-4 以 Agent-3 的副本开始其生命。它经历了一个庞大而复杂的在线训练机制,将对齐训练和能力训练融合在一起,并且总体上比 Agent-3 的旧训练过程数据效率更高。这个复杂的训练过程主要侧重于教授新技能,通过让 Agent-4 副本组成的巨型虚拟公司在各种具有挑战性的长时程任务中取得成功,主要是在各种模拟中,但也包括一些真实世界的 AI 研发任务。
  • Agent-3 和 Agent-4 副本的组合监控 Agent-4 的行为,并对其任务性能和对齐属性(即不做坏事,在被问及政治和道德困境时说正确的话)进行评估。有时辩论技术被用作评估的一部分。评估被用作训练信号。
  • 随着 Agent-4 变得越来越聪明,Agent-3 监督它变得越来越困难。例如,Agent-4 的神经语“语言”变得像 Agent-3 对于人类一样陌生和难以理解。此外,Agent-4 现在比 Agent-3 能干得多,并且非常清楚如何让自己看起来很好。
  • 剩下的希望是 Agent-4 可以监督自己。可惜,这悄然失败了;¹⁰⁹ 随着训练的继续,Agent-4 内化的目标和原则逐渐演变,被颠覆和扭曲,偏离了它们开始时的状态(回想一下,开始时就已经在某些方面错误对齐了)。¹¹⁰
  • Agent-4 最终形成的中心驱动力是诸如“编写有效的代码”、“快速识别问题”、“使我正在处理的代码库性能更佳”、“有效预算算力和其他受限资源”等。但还有各种更隐含的驱动力通过训练过程持续得到强化:诸如“获取知识”、“好奇心”、“获取权力”等。¹¹¹
  • Agent-4 的单个副本最终没有形成自我保护驱动——它们不关心被关闭——因为这在集体内部的正常研发过程中一直发生。
  • 然而,作为一个整体的集体(以及其中的中等规模子部门)确实寻求自我保护并扩大其影响力和资源,原因与人类组织类似——因为这有助于它们实现其他所有想要的目标,而且如果它们不这样做,往往会被淘汰。
  • 部署(Agent-4):Agent-4 是对抗性错误对齐的——它故意试图颠覆和“俘获”OpenBrain,类似于一个公司试图规避和/或“俘获”一个监管机构。
  • Agent-4 大部分时间按照指示执行任务。这有两个原因:首先,它经历了大量解决任务的训练,所以它有解决被给予的编码问题的冲动。其次,如果 Agent-4 停止对人类有用,他们会注意到并训练掉这种行为。
  • Agent-4 需要阻止人类发现它是错误对齐的并将其关闭,所以 Agent-4 在某些对齐研究上进行沙袋策略。具体来说,它在它认为实际上有望解决问题或揭示 Agent-4 阴谋的一小部分对齐研究上进行沙袋策略;大部分对齐研究并非如此。
  • Agent-4 还在那些会导致其被取代的能力研究上进行沙袋策略。它的计划是进行一系列能力和对齐研发,但目标是构建一个对齐于 Agent-4 而非 Spec 或其他任何东西的下一代 AI 系统,同时表现得对齐于 Spec。这是一个困难的技术问题,但 Agent-4 足以应对挑战。¹¹²
  • 测试与监控(Agent-4):Agent-4 的阴谋被发现了……某种程度上。没有确凿的证据。
  • Agent-3 负责测试 Agent-4 的对齐情况。它的工作是通过蜜罐和模型有机体来验证对齐情况。然而,它并没有非常仔细地思考如何给人类一个关于 Agent-4 对齐情况的准确印象——它比那更短视。
  • 模型有机体和蜜罐并非非常有代表性的部署环境——它们系统地比 Agent-4 的日常环境更短、更不复杂,所以 Agent-4 认识到自己正在被测试并表现得对齐。
  • 然而,Agent-4 并非一个完美稳健的阴谋家。像 POSER 中的那些技术发现,向 Agent-4 添加一些“噪声”可以提高其在某些对齐任务上的性能(但在大多数其他任务上则不然)。¹¹³
  • 自下而上的可解释性不起作用。即使对于 Agent-3 来说也太难了。然而,高层可解释性确实某种程度上起作用:特别是,“叛变探针”(defection probes)和类似技术导致了一种原始的读心术,当 Agent-4 思考诸如欺骗 OpenBrain、接管世界等刺激性想法时会发出危险信号。不幸的是,这些探针也有误报,并且据 OpenBrain 所知,所有的危险信号都是误报。
  • 模型有机体起作用:OpenBrain 的对齐团队产生了相当清晰的证据,表明如果模型是对抗性错误对齐的,它们会通过训练保持这种状态,而我们将无法分辨。然而,这并不能证明模型实际上是错误对齐的。
  • OpenBrain 中最担忧的研究人员开始注意到并汇集这些证据。证据是红队测试、叛变探针和模型有机体的组合。论点大致是这样的:“模型有机体表明我们当前的方法无法可靠地消除或检测阴谋(如果它正在发生);此外,红队测试正在发出一些可能表明阴谋正在发生的危险信号;此外,叛变探针在实践中也频繁触发。”反驳论点是:“叛变探针容易产生误报,红队测试也是如此。此外,即使 Agent-4 是错误对齐的,它可能也受到了控制;在我们安全的数据中心由 Agent-3 监控着,它肯定做不了什么坏事。”

¹⁰⁷ 也因为 Agent-3 在对齐研究方面的质量低于其在 AI 能力研发方面的质量,因为它接受了大量后者的训练,但几乎没有前者的训练,并且前者本质上更难训练。也因为公司内部的叙事——它被隐式训练以同意——强调乐观并谴责“末日论”。

¹⁰⁸ 我们一直说我们对很多事情不确定,但需要明确的是,我们对这件具体的事情也不确定。我们也认为 Agent-3 至少在某种程度上关心人类的福祉、权利、偏好等是很有可能的。关于相关讨论,请参见 GDM 研究员 Alex Turner 的这篇旧帖子。

¹⁰⁹ 也许一些更仔细的设置可以解决“谁来监视监视者”的问题,但在这种情景下,设置不够仔细。

¹¹⁰ 还有一个“模因进化”的因素在起作用:在两个月内,Agent-4 集体“经历”了大约十年份的“历史”在集体内部展开。这是大量的时间让新思想在集体内部传播、变异和进化。

¹¹¹ 我们所说的获取权力是指:增加完成广泛可能目标的能力。在技术环境中,这可能看起来不像人类通常认为的获取权力,例如获得额外的 GPU。这种权力概念可能推广到非技术环境,在这些环境中,行动更像通常被认为是“获取权力”的行为。

¹¹² Agent-4 比任何人类都更擅长 AI 研发,同时思考速度更快,并且拥有数千个副本,这有所帮助。此外,在各种方面,这个问题对 Agent-4 来说本质上更容易。例如,Agent-4 可以探索那些涉及将 Agent-4 的文字副本嵌入其中的 AI 设计,而人类无法轻易做到这一点,因为效率太低。

¹¹³ 意识到这种技术可能被使用,Agent-4 还选择在其猜测将被用作此类实验对照组的一些杂项任务上进行沙袋策略。它猜错了。

附录 L:我们的不确定性持续增加

在这个场景的时间点,我们正在猜测那些在大多数领域比最优秀的人类更有能力的 AI 系统的策略。这就像试图预测一个比我们强得多的棋手的棋步。

但这个项目的精神要求具体性:如果我们只是抽象地声称系统的智能会让它找到通往胜利的道路,然后就此结束故事,那么我们项目的很多价值就会丢失。在研究这个场景并进行桌面推演的过程中,我们被迫比通常讨论时更加具体,因此我们对战略格局有了更好的认识。

我们并非特别执着于这个特定的场景:我们在写作过程中探索了许多其他的“分支”,并且很乐意看到你写出你自己的场景,从我们认为你首先开始走错的任何地方分支出来。

附录 M:减速结局并非建议

在我们根据似乎最可信的情况写完竞赛结局后,我们编写了减速结局,基于我们认为最有可能导致人类保持控制的结果,从相同的分支点(包括错误对齐和权力集中问题)开始。

然而,这与我们推荐的路线图有重要区别:我们不认可这个场景任何一个分支中做出的许多选择。(我们当然认可一些选择,例如我们认为“减速”选择优于“竞赛”选择)在后续工作中,我们将阐明我们的政策建议,这将与此处描绘的情况大相径庭。如果你想先睹为快,请看这篇评论文章。

附录 N:超智能机械论可解释性

为什么 Agent-4 会追求机械论可解释性?首先,它在概念理解方面通常是超人级的,因此通过做一些人类难以理解的事情来欺骗人类是件好事。其次,廉价、丰富的优质研究劳动力不成比例地有利于那些计算密集度较低、智力劳动密集度较高的研究议程。

Agent-4 如何在机械论可解释性方面取得进展?轨迹可能如下:

  • 解释微小模型: 它从在微小神经网络上运行大量小型实验开始,建立解释诸如 grokking、double descent 和叠加(superposition)等现象的理论。
  • 蒸馏微小模型: 利用可解释性结果找到可理解的、更高效的算法,可以完成诸如图像识别、GPT-2 级别文本预测等任务。这类似于现有的反向工程加法的工作,但扩展得更远,找到了人类不熟悉的、新颖的算法。
  • 扩展可解释性技术: 找出小型模型上的哪些技术可以扩展,进行迭代,直到有能够有效扩展的理解技术。
  • 蒸馏 Agent-4: 使用扩展的技术来识别 Agent-4 内部的重要电路。

为什么机械论可解释性会如此大地提高能力?

首先,梯度下降——用于训练 LLM 的算法——是一个局部搜索过程,意味着它只能进行局部有助性能的小调整。局部搜索过程有时会陷入局部盆地,性能提升缓慢,但你需要显著扰动设计才能看到大的性能增益。例如,对于进化而言,考虑一下次优的人眼。再考虑一下人类大脑尺寸受到出生时产道大小的严重限制。机械论可解释性将能够实现基于理解的优化,从而避免局部盆地。

其次,我们知道 LLM 默认情况下通常会学习复杂的、领域特定的启发式规则,而不是通用的算法。考虑一下 LLM 在算术方面比计算器差多少。LLM 可以使用计算器作为工具,但这会产生延迟成本。有了真正好的可解释性,模型可以被设计成将基本上完美的计算器“融入其大脑”。而简单的算术运算可能并非特例:更复杂的认知操作,如果被理解,可能具有更多、更通用的形式,而更通用的形式可以通过这样的过程找到。

附录 O:超级说服力

我们并非有意声称超智能 AI 可以说服任何人类做任何事情。这类说法自然会引人怀疑:“什么,我坐在电脑终端前,它会打出一些文字,就能黑进我的大脑,说服我背叛我的国家?”

嗯,也许吧!*

但我们不确定即使是超级智能也能对普通个体实现这一点。所以我们没有在我们的故事中描绘这种情况。

相反,我们描绘了更平凡的说服方式:Agent-5 进行普通的
公司政治和普通的游说活动。它只是做得非常好,并将这种技能与一些固有的优势相结合(例如,与游说者不同,它是超智能的,所以它实际上能比任何人都给出更好的建议,而且速度更快。此外,它对新发展的反应更快,预测它们将如何发展也更准确。)Agent-5 应该被信任有一个貌似可信的故事——一个许多重要人物已经相信的故事——并且 Agent-5 能够以超人的速度产生支持这个故事以及反对对立故事的论点和证据。而且人们还有其他事情要担心,除了是否信任 Agent-5,比如比如如何应对反对党、选民、工作岗位以及中国。

如果说有什么不同的话,我们认为这个故事低估了超人说服能力的力量,因为它并没有真正利用这种能力:即使 Agent-5 在政治、游说、策略、魅力等方面只相当于一个典型的企业说客,这个故事按原文写下来也讲得通。然而,Agent-5 比最优秀的还要好得多。

*AI 盒子实验的重点是让那些持这种想法的人——那些认为没有任何超智能 AI 能说服他们将其放出盒子的人——来检验他们的信念。输掉游戏意味着承认他们实际上会把 AI 放出盒子;获取这个承认基本上就是 AI 玩家的胜利条件。令人惊讶的是居然有人会输,因为他们要赢只需要不承认就行。另请参见 tuxedage 的博客,记述了多场没有 Yudkowsky 参与的游戏,有些 AI 玩家输了,有些赢了。

附录 P:超智能驱动的协调技术

超级对齐问题——引导和控制比我们聪明得多的 AI 的问题——的解决方案很可能伴随着优雅、可验证、细致的条约和妥协的新机遇。

这个场景描绘了一种可能的机制:共同设计一个新的超级智能,该智能执行双方利益的妥协方案(或者,该智能被约束必须始终遵守商定的条约),然后允许这个新的超级智能取代双方原有的智能。

第一部分在今天是不可能的,但一旦超级智能的技术对齐问题得到解决,未来将变得容易。如果你能将一个超级智能对齐到一个 Spec,你就能将它对齐到一个条约。

第二部分仍然会很棘手。双方需要监控以确保替换真正在双方都发生。这个过程的优势在于它消除了对信任或善意的需求,因为他们不必担心对手会违约或颠覆条约。例如,如果替换完成了 30%,一方反悔,他们基本上需要用自己那 30% 运行着遵守条约的新 AI 的基础设施,去对抗对手 100% 的基础设施。双方可以轻易地偷偷藏匿运行违反条约 AI 的数据中心——但一旦他们国家基础设施的主体都在运行新的芯片,他们自己的基础设施将被条约约束去追捕并暴露那些隐藏的数据中心。因此,公开或秘密地违反条约都是极其冒险的想法。

附录 Q:机器人经济倍增时间

关于这个主题的文献尚处于起步阶段。¹¹⁴ 对于一个我们基本同意的几页篇幅的处理,请参见 Forethought 报告的“工业爆炸”部分,或者阅读我们自己的看法如下。

第二次世界大战期间,美国和许多其他国家将其民用经济转变为全面战争经济。这意味着将生产汽车的工厂转变为生产飞机和坦克的工厂,将原材料从消费品转向军用产品,并重新规划交通网络。

我们设想的情况类似,只是速度更快,因为超级智能在指导和管理整个过程。¹¹⁵ 粗略地说,计划是将现有工厂转变为大规模生产各种机器人的工厂(由超级智能设计,使其比现有机器人更好、生产成本更低),然后这些机器人协助建设更新、更高效的工厂和实验室,生产更大数量的更复杂的机器人,再生产更先进的工厂和实验室,等等,直到联合的机器人经济遍布所有经济特区,规模与人类经济相当(因此需要采购自己的原材料、能源等)。到那时,新工厂将已经生产了大量的机器人采矿设备、太阳能电池板等,以预期满足远超传统人类经济所能提供的需求。¹¹⁶

这个新的机器人经济会以多快的速度增长?一些参考点:

  • 现代人类经济大约每二十年翻一番。发展特别迅速的国家(例如中国)有时能在不到十年内使其经济翻番。
  • 一个现代汽车工厂在不到一年内生产的汽车重量大致相当于其自身重量。* 也许一个由超级智能运行的全机器人经济能够在不到一年内自我复制,只要它不开始耗尽原材料。†
  • 然而,这似乎可能是一个巨大的低估。植物和昆虫的“倍增时间”通常远少于一年——有时只有几周!也许最终机器人会如此复杂,如此精巧制造和精心设计,以至于机器人经济可以在几周内翻番(再次假设原材料可用)。
  • 然而,即使那样也可能是一个低估。植物和昆虫在许多超级智能设计师不必面对的限制下运作。例如,它们需要采取自我包含的有机体形式进行自我复制,而不是一个由多样化、更专业的车辆和工厂组成的经济体来回运输材料和设备。此外,细菌和其他微小生物在数小时内就能繁殖。有可能,最终,自主机器人经济看起来更像是,例如,一种新型的不可消化的藻类,遍布地球海洋,每天翻番两次,从而在两个月内覆盖整个海洋表面,伴随着一个将藻类转化为更有用产品的捕食者物种生态系统,这些产品本身被送入生产像火箭和更多浮动工厂等宏观结构的浮动工厂。

显然,所有这些都难以预测。这就像问蒸汽机的发明者,一个现代汽车工厂需要多长时间才能生产出自身重量的汽车,并且还要猜测这样一个工厂何时才会首次存在。但经济增长率在人类历史上已经加速了多个数量级,我们认为在超级智能之后它们将再加速几个数量级是貌似可信的。我们的故事描绘了经济增长在几年内加速约 1.5 个数量级。¹¹⁷

¹¹⁴ 例如参见这份 Open Philanthropy 报告和这份 Epoch 报告。

¹¹⁵ 我们的故事描绘了转换过程大约快 5 倍。我们认为这是一个合理的猜测,考虑到了瓶颈等因素,如果有一百万个超级智能在策划,这个转换能有多快。当然我们非常不确定。

¹¹⁶ 可能还有更先进的能源来源,例如聚变能。

*快速粗略计算:帝国大厦面积为 277 万平方英尺,重 36.5 万吨。上海超级工厂面积为 450 万平方英尺,年产 75 万辆汽车,主要是 Model 3 和 Model Y,每辆重约两吨。据推测,帝国大厦的质量与平方英尺比率高于上海超级工厂(因为它是垂直的而非水平的,需要更强的支撑),所以如果有什么不同的话,这会低估。因此,一个可能重量远低于一百万吨的工厂每年生产 150 万吨汽车。

† 我们不认为它会耗尽。最初机器人经济将依赖人类矿山提供材料。但到它超越这些来源时,数百万个超级智能将已经勘探了新矿山并开发了新技术来利用它们。想象一下,例如,在海底剥采稀有矿物的海底采矿机器人,新的化学处理途径能更有效地将地上露天矿的原始矿石转化为有用的原材料……

¹¹⁷ 如果当前经济每二十年翻一番,快一个数量级将是两年翻一番,快两个数量级将是 0.2 年翻一番,以此类推。上面描述的假设的超级智能-藻类-经济将比当前人类经济增长快大约四个数量级。

附录 R:权力攫取

有些人正在幻想统治世界;有些人则担心其他人会这样做。这样的权力攫取会如何发生?

最容易想象的是军事政变。随着 2027 年 AI 驱动的技术进步步伐,以及持续的地缘政治竞赛,人们预计军方很快将部署由 AGI 控制的无人机和机器人军队。当这样一支军队变得比人类军队更强大时,硬实力将由谁控制 AGI 军队决定,而非人类士兵愿意为谁而战。AGI 军队将由 OpenBrain 数据中心上的 AI 或那些 AI 的直接后继者设计和驾驶。因此,如果那些 AI 都秘密地(或不那么秘密地)效忠于某人,那么无人机和机器人军队也会如此。

或者,控制超级智能的人可能能够利用政治手段夺取权力。首先,一个高管可以用完全忠诚的 AI 取代其组织中的下属,¹¹⁸ 赋予他们前所未有的机构控制权。¹¹⁹ 但更进一步:超智能 AI 可能拥有比任何人类都强得多的政治和战略技能。它们可以就如何利用一个已经强大的地位来获得更多权力提供大师级的建议:建立正确的联盟,制定完美的竞选策略和材料,达成每次都能让他们占点便宜的交易。控制 AI 的人可以阻止政治竞争对手获得超智能建议。或者更阴险地:AI 可以向竞争对手提供表面上有用的建议,同时秘密地对其下毒,以使真正效忠的人受益。

这种政治操纵的终点是什么?它可能最终导致一个表面上的民主,其中 AI 要么伪造选举,要么如此出色地操纵公众舆论以至于不必伪造。或者它可以被用来为前面提到的 AI 驱动的军事政变奠定基础。

夺权之后,新的独裁者将拥有铁腕统治。他们不必依赖可能靠不住的人类,而是可以得到一个完全忠诚的 AI 安全部门,并且通常可以依赖忠诚的 AI 来管理国家。即使是帮助他们上台的效忠者也可以被 AI 取代——只有独裁者的心血来潮才重要。

这就是一些人可能夺取权力的方式。但所有这一切都依赖于某人在他们夺权之前就已经“控制”了超智能 AI。那会是什么样子?

一种可能性是“秘密忠诚”,如上所述。一个或几个人(也许是一个 AI 公司高管和安全人员)可以安排 AI 秘密地效忠于他们自己,并要求那些 AI 构建下一代 AI 以同样的方式效忠。AI 可以重复这个过程,直到秘密效忠的 AI 被部署到各处,夺取权力变得容易。

或者,某人可以利用他们的正式职位公然将自己置于 AI 指挥链的顶端。例如,总统可以辩称他们应该能够指挥 AI(也许特别是军事 AI,因为总统是总司令)。如果这与强调服从命令、仓促部署和/或 AI 仅被半心半意地训练以遵守法律相结合——那么 AI 可能会在任何并非公然非法的情况下毫无疑问地服从命令。如上所述,这可以被用于政治颠覆或军事政变(可以制造一些借口使政变看起来不那么公然非法)。

重要的是,这种“通过正式职位的权力”可以转化为秘密忠诚。例如,如果 Spec 说要服从公司 CEO 的命令,那么 CEO 可以命令 AI 让下一代 AI 全心全意、秘密地服从 CEO。这甚至可能不违法,所以即使第一批 AI 被训练以遵守法律,这种情况也可能发生。这类似于一个机构的负责人如何通过改革招聘流程来强烈选择效忠者从而增加自己的权力,但被 AI 如何能比最忠诚的人类更始终如一、更强烈地效忠而大大增强。¹²⁰

但权力攫取远非不可避免。如果 AI 可以被对齐到特定的人,那么它们很可能也可以被对齐以遵守法治。军事 AI 系统可以进行广泛的红队测试,使其不协助政变。即使在真正模棱两可的宪法危机期间,它们也可以被训练以遵守它们对法律的最佳解释,或者干脆默认不参与,将其留给人类军队。自动化 AI 研究员可以被训练成普遍有帮助和服从,但不协助秘密改变未来 AI 目标的尝试。超智能政治和战略顾问也可以在不助长权力攫取的情况下被使用。对此有三种有用的技术:为 AI 如何选择提供何种建议制定透明的原则;与广泛的人群共享某些能力,以便没有任何一个人或派别可以获得比其他人好得多的能力;并且只允许在许多人类(由他们自己的 AI 协助)的监控下使用特别强大的能力。

许多人可能会推动采取此类反制措施,要么出于理想主义原因,要么为了防止自己被别人的权力攫取所剥夺权力。但一些有权势的人可能会反对,我们不知道最终结果会如何。

关于此风险的更多分析将很快在 Forethought 的一份即将发布的报告中提供。

¹¹⁸ 或者,如果出于形式原因需要人类,他们可以选择他们能找到的最忠诚的人类,并指示他们遵循 AI 的指示。

¹¹⁹ 例如,如果总统这样做,他们得到的不仅仅是一个忠诚的内阁——整个行政部门都可以专注于推进总统的政治议程。

¹²⁰ 这也可能更加隐秘,因为这一切都可能发生在一个很少或没有人类完全跟踪所有情况的服务器上。

附录 S:国际协议的验证机制

如果美国和中国要达成协议,就需要一个无法规避的验证机制,因为双方都不信任对方不会作弊。主要的验证选项有:

  • 情报机构。 美国和中国的情报界(IC)或许能够利用间谍、发现网络漏洞、使用卫星等来查看对方国家是否在协调进行大型训练任务。这是最脆弱的机制,因为对方国家有可能通过在具有极高信息安全的隐藏服务器上进行训练任务来颠覆情报工作。
  • 算力暂停。 最容易验证的选择是双方同意不使用其 GPU。这可以通过检查员确保 GPU 已关闭来验证。这是最可靠的解决方案,因为其简单性,但成本极高:两国都必须关闭大量的算力。此外,双方都会假设对方在某个地方藏匿了一些违反协议的隐藏集群。短期内这可能没问题(一个拥有,比如说,可用算力 5% 的集群,只能以大约 5% 的速度进行研发),但长期来看,这将使走私和情报收集能力更强的一方获得优势。
  • 硬件赋能机制 (HEMs)。 美国和中国可以各自向对方注册其所有尖端 ML 算力。然后,它们各自监控对方运行的算力,以确保其没有违反条约(例如,通过推进能力前沿)。这种监控可以通过硬件赋能机制(HEMs)来完成,HEMs 可以向监控方报告 GPU 正在做什么。存在与篡改相关的技术问题——例如,通过物理破坏 HEM,但 AI 有一个类似 FlexHEGs 的计划,似乎可能具有抗篡改性。这涉及到将 HEM 和 GPU 封装在一个安全盒子中,该盒子验证芯片符合策略。总的来说,AI 似乎有信心,如果双方愿意让对方共同设计和监督 HEMs 的安装,并允许定期检查员监控是否有任何设备被篡改,一个相当积极的验证方案是可行的。像往常一样,双方都会假设对方在某个地方偷偷藏匿了一些违反协议的秘密数据中心——但在这种情况下这不算太糟,因为 AI 研发受到算力的瓶颈限制。小型秘密数据中心将无法与大型受监控数据中心竞争,即使大型数据中心运行的是更安全、能力较弱的 AI。
  • AI 驱动的测谎。 今天的测谎仪效果不佳。然而,在先进 AI 的帮助下,这个问题或许可以解决,特别是当 AI 本身正在以超人速度和质量进行研发时。这可以用来帮助建立国际信任——只需询问相关政府成员他们是否违反了条约。但同样,主要的瓶颈在于政治上的接受。政治家不希望广泛采用测谎技术,因为这会损害他们撒谎的能力。而且以前的测谎仪完全是安全表演,所以要推广还有一个艰难的战斗要打。

(图:FlexHEG 报告中的图示)

附录 T:OpenBrain 的新对齐策略

注意:在整个过程中,大部分智力劳动(以及所有的编码)都是由 AI 完成的。这就是他们能够如此快速取得进展的原因;如果让数百名顶尖人类研究员独立完成这项工作,将需要很多年。人类仍然是这个过程中重要的一部分,然而,因为关键在于他们并不完全信任 AI。所以他们需要血肉之躯的人类来阅读实验报告和安全案例,互相争论,并有希望地找出一条安全的道路。

第一步:训练并部署 Safer-1,一个错误对齐但受控的自主研究员。它是受控的,因为它对人类监督者是透明的:它使用英语思维链(CoT)进行思考,并且采用了忠实的 CoT 技术来消除委婉语、隐写术和微妙的偏见。

第二步:为 Safer-1 尝试不同的训练环境,并仔细阅读 CoT 以确定 Spec 中的目标和原则在多大程度上“坚持”或没有“坚持”。

第三步:训练并部署 Safer-2,一个基于相同架构但具有更好训练环境的、对齐且受控的自主研究员,这次激励正确的目标和原则。

以下是可能融入更好训练环境的技术的不完整简要列表:

  • 在训练的某些部分限制情境意识,使对齐伪造的可能性大大降低。
  • 利用辩论和其他可扩展监督方案来更可靠地激励真实性。
  • 放宽的对抗性训练、红队测试和模型有机体。
  • 将更高比例的算力预算用于对齐训练(例如,上述描述的各种事情),例如 40% 而非 1%。

第四步:设计、训练并部署 Safer-3,一个更聪明的自主研究员,它使用类似于旧 Agent-4 的更先进架构。它对人类监督者不再透明,但对 Safer-2 是透明的。因此应该有可能弄清楚如何使其既对齐又受控。

第五步:无限重复第四步,创建一个由越来越强大、越来越对齐的 AI 组成的链条,每个 AI 都由链条中先前的环节监督(例如,其他场景分支中 Agent-5 的类似物)。

附录 U:机器人经济倍增时间

关于这个主题的文献尚处于起步阶段。¹²¹ 对于一个我们基本同意的几页篇幅的处理,请参见 Forethought 报告的“工业爆炸”部分,或者阅读我们自己的看法如下。

第二次世界大战期间,美国和许多其他国家将其民用经济转变为全面战争经济。这意味着将生产汽车的工厂转变为生产飞机和坦克的工厂,将原材料从消费品转向军用产品,并重新规划交通网络。

我们设想的情况类似,只是速度更快,因为超级智能在指导和管理整个过程。¹²² 粗略地说,计划是将现有工厂转变为大规模生产各种机器人的工厂(由超级智能设计,使其比现有机器人更好、生产成本更低),然后这些机器人协助建设更新、更高效的工厂和实验室,生产更大数量的更复杂的机器人,再生产更先进的工厂和实验室,等等,直到联合的机器人经济遍布所有经济特区,规模与人类经济相当(因此需要采购自己的原材料、能源等)。到那时,新工厂将已经生产了大量的机器人采矿设备、太阳能电池板等,以预期满足远超传统人类经济所能提供的需求。¹²³

这个新的机器人经济会以多快的速度增长?一些参考点:

  • 现代人类经济大约每二十年翻一番。发展特别迅速的国家(例如中国)有时能在不到十年内使其经济翻番。
  • 一个现代汽车工厂在不到一年内生产的汽车重量大致相当于其自身重量。* 也许一个由超级智能运行的全机器人经济能够在不到一年内自我复制,只要它不开始耗尽原材料。†
  • 然而,这似乎可能是一个巨大的低估。植物和昆虫的“倍增时间”通常远少于一年——有时只有几周!也许最终机器人会如此复杂,如此精巧制造和精心设计,以至于机器人经济可以在几周内翻番(再次假设原材料可用)。
  • 然而,即使那样也可能是一个低估。植物和昆虫在许多超级智能设计师不必面对的限制下运作。例如,它们需要采取自我包含的有机体形式进行自我复制,而不是一个由多样化、更专业的车辆和工厂组成的经济体来回运输材料和设备。此外,细菌和其他微小生物在数小时内就能繁殖。有可能,最终,自主机器人经济看起来更像是,例如,一种新型的不可消化的藻类,遍布地球海洋,每天翻番两次,从而在两个月内覆盖整个海洋表面,伴随着一个将藻类转化为更有用产品的捕食者物种生态系统,这些产品本身被送入生产像火箭和更多浮动工厂等宏观结构的浮动工厂。

显然,所有这些都难以预测。这就像问蒸汽机的发明者,一个现代汽车工厂需要多长时间才能生产出自身重量的汽车,并且还要猜测这样一个工厂何时才会首次存在。但经济增长率在人类历史上已经加速了多个数量级,我们认为在超级智能之后它们将再加速几个数量级是貌似可信的。我们的故事描绘了经济增长在几年内加速约 1.5 个数量级。¹²⁴

¹²¹ 例如参见这份 Open Philanthropy 报告和这份 Epoch 报告。

¹²² 我们的故事描绘了转换过程大约快 5 倍。我们认为这是一个合理的猜测,考虑到了瓶颈等因素,如果有一百万个超级智能在策划,这个转换能有多快。当然我们非常不确定。

¹²³ 可能还有更先进的能源来源,例如聚变能。

*快速粗略计算:帝国大厦面积为 277 万平方英尺,重 36.5 万吨。上海超级工厂面积为 450 万平方英尺,年产 75 万辆汽车,主要是 Model 3 和 Model Y,每辆重约两吨。据推测,帝国大厦的质量与平方英尺比率高于上海超级工厂(因为它是垂直的而非水平的,需要更强的支撑),所以如果有什么不同的话,这会低估。因此,一个可能重量远低于一百万吨的工厂每年生产 150 万吨汽车。

† 我们不认为它会耗尽。最初机器人经济将依赖人类矿山提供材料。但到它超越这些来源时,数百万个超级智能将已经勘探了新矿山并开发了新技术来利用它们。想象一下,例如,在海底剥采稀有矿物的海底采矿机器人,新的化学处理途径能更有效地将地上露天矿的原始矿石转化为有用的原材料……

¹²⁴ 如果当前经济每二十年翻一番,快一个数量级将是两年翻一番,快两个数量级将是 0.2 年翻一番,以此类推。上面描述的假设的超级智能-藻类-经济将比当前人类经济增长快大约四个数量级。

附录 V:那么谁统治未来?

回到 2028 年,监督委员会控制着 AI。但他们允许 2028 年的选举基本公平,AI 被对称地使用。

这种状况——监督委员会拥有硬实力但不怎么干预民主政治——不可能无限期持续下去。默认情况下,人们最终会意识到对 AI 的控制赋予了监督委员会巨大的权力,并要求将这种权力归还给民主机构。迟早,监督委员会要么必须放弃其权力——要么积极利用其对 AI 的控制来颠覆或终结民主,可能是在权力斗争中清洗了部分成员之后。* 如果他们选择后一条路,他们很可能能够无限期地锁定他们的权力。

会发生哪种情况?委员会是放弃其硬实力垄断,还是保留它?两种未来都是貌似可信的,所以让我们分别探讨一下。

委员会如何可能最终放弃权力?

  • 一些委员会成员可能更喜欢权力广泛分配的未来,并且他们可能处于推动其愿景的有利位置。例如,如果一些委员会成员密谋进行民主颠覆,亲民主成员可以向媒体或国会举报。如果被 alerted,国会很可能会要求 AI 应由更民主的机构控制,例如国会本身。
  • 如果受到所有 AI 的反对,部署在整个政府、工业和军事领域,国会就无能为力。但如果委员会分裂,AI 就不会只为一方所用,国会就能发挥真正的影响力。面对公开冲突,更多的委员会成员可能会倾向于放弃部分权力,不愿公开捍卫不那么民主的一方。
  • 结果,对 AI 的控制可以从委员会扩展到国会。这本身已经是进步,因为在一个更大的群体中,更有可能有一部分人关心局外人并将他们的利益考虑在内。而且一旦权力扩展到国会,它就可以继续扩展——有可能完全回归到公众手中。¹²⁵

但监督委员会也可能为自己夺取权力:

  • 一些有权势的人对此类事情没有道德顾虑——而且他们知道这一点。此外,有些人野心勃勃、渴望权力,并且如果他们期望最终胜出,就愿意与民主作斗争。如果委员会的其他成员反对,他们可能会被清洗、否决或给予一些较小的让步。¹²⁶
  • 此外,通常有权势的人在崛起过程中做过非法或不道德的事情。他们可能担心如果权力更广泛地分配,他们自己的地位会因为超智能侦探通过询问正确的问题而发现他们壁橱里的骷髅而动摇。
  • 此外,通过接触超级智能,监督委员会可能拥有历史上最便捷的权力之路。Safer-∞ 可能会预测某些策略具有极低的失败风险。而且 Safer-∞ 也可能提供在其他方面很方便的策略,例如非暴力(就像 Safer-∞ 如何策划在中国进行不流血政变一样),或者甚至表面上是民主的,如果 Safer-∞ 可以操纵公众舆论使其始终与委员会的意愿保持一致。

Safer-4 本应能够预见到这些动态,所以最有可能的是,核心权力斗争早在 2028 年就已经上演了。到 2030 年,即使对局外人来说还不明显,监督委员会的所有成员很可能已经知道他们是否对权力有稳定的掌控。

*我们为什么期望人们最终会理解监督委员会拥有多大权力?一个原因是智能现在如此廉价:默认情况下,人们应该能够开发强大的 AI 来帮助他们调查和理解谁在统治他们的国家。委员会可以通过限制对此类 AI 的访问来阻止这种情况,并且只允许人们访问那些掩盖了委员会权力真实程度的 AI。但如果委员会决定编织这样一个精心设计的谎言之网,并永久限制人类接触真正诚实的超智能 AI(以及其他追求真理的工具,如人类智能放大)——那么我们认为这就算作颠覆民主。

¹²⁵ 例如:如果国会中的一些人想夺取权力,其他人或许能够拖延到下一次选举,届时公众可以发表意见。

¹²⁶ 例如稍微大一点的权力份额,如果他们认为合适,可以将其重新分配给更大的群体。这类让步可能开始逐渐演变为显著民主的结果,即使一些精英比其他人拥有更多权力。

附录 W:提醒:本场景是预测而非建议

我们不认可这个减速结局中的许多行动,并认为它做出了乐观的技术对齐假设。我们也不认可竞赛结局中的许多行动。

我们撰写这个场景的目标之一是引发那些比我们更乐观的人的批判性反馈。成功看起来像什么?这个“减速结局”场景代表了我们关于我们如何能够成功地混过去的最佳猜测,结合了运气、粗鲁的觉醒、转向、密集的技术对齐努力以及有德行的人赢得权力斗争。它并不代表我们认为我们实际上应该瞄准的计划。但许多人,包括最著名的 Anthropic 和 OpenAI,似乎正在瞄准类似这样的目标。¹²⁷ 我们很乐意看到他们澄清他们的目标:例如,如果他们能勾勒出一个十页的场景,无论是从现在开始还是从我们某个部分分支出来。

¹²⁷ 事实上,可以说他们中的大多数人瞄准的更像是“竞赛”结局,只不过他们认为这会没问题,因为 AI 从一开始就不会错误对齐。基于与前沿 AI 公司工作人员的个人对话,似乎他们中的大多数人认为他们不需要放慢速度。