《休谟、康德与 DeepSeek:从经验到理性的智能进化》

An image to describe post

序章:当 DeepSeek 遇见休谟与康德

一个模型的犹豫

2025 年 1 月,DeepSeek-AI 在 arXiv 上发布了论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。论文记录了一段被反复引用的观察。

研究者训练了一个叫 DeepSeek-R1-Zero 的模型。这个模型的特殊之处在于,它没有先经过监督微调,直接在基础模型上做大规模强化学习。在训练过程中,模型开始做一些之前在大语言模型里几乎看不到的事情。

它在做数学题时,会写到一半停下来。它会重新审视自己刚才写的几行推导,发现其中一步有问题,然后改写后面的过程。它会用类似「Wait」这样的词开启一段自我修正。有时候它会在得出答案之前,主动检查这个答案是否合理。

研究者把这类行为统称为反思(reflection)、自验证(self-verification)、策略调整(strategy adjustment),并把模型出现这种行为的时刻称为「aha moment」。一个用统计方法训练出来的语言模型,在强化学习的奖励信号驱动下,自发出现了类似「想一想再回答」的行为。

这件事在 AI 研究圈引发了广泛讨论。讨论的焦点大多是技术性的:强化学习为什么能激发这种行为?这种行为是否稳定?能不能扩展到更多任务?长过程推理是否等于正确推理?这些讨论重要,但本书想问一个不太一样的问题。

R1-Zero 之前的大语言模型,包括 GPT 系列、LLaMA 系列、DeepSeek 自己的 LLM 67B,在生成文本时遵循一种相对直接的模式。模型根据当前已生成的 token,预测下一个 token 的概率分布,从中采样或取最大值,然后把新 token 加入上下文,继续预测下一个。整个过程是单向的、不加回顾的。模型不会在生成中途停下来反思「我刚才写的几步对不对」,也不会主动检查最终答案是否合理。

R1-Zero 不一样。它在生成过程中会主动暂停,会重新审视已经写出的推理步骤,会发现步骤中的问题并改写,会在得出答案之前主动验证。这些行为是模型在强化学习的奖励信号下自发出现的,不是研究者显式标注后教给模型的。研究者把这种自发的反思时刻称为 aha moment。

这种现象之所以让人惊讶,是因为它打破了「统计训练只能产生统计续写」的预期。一个在文本上做下一词预测训练的模型,理论上应该只是把训练数据中的统计模式续写出来。但 R1-Zero 在强化学习阶段出现的行为,看起来像是模型在「思考」。

「思考」这个词需要打引号。本书不主张 R1-Zero 有人类的意识、感受质或主观体验。本书主张的是,R1-Zero 在「能进行可检验推理」这一最低意义上,表现出了之前 AI 系统没有的推理结构。这种推理结构是否足以称为「思考」,是一个哲学问题,留到本书最后一章处理。

现在先回到那个不太一样的问题。

如果一个 18 世纪的哲学家看到这段论文,会怎么说?

18 世纪的问题

把这个问题再具体一点。

1748 年,大卫·休谟出版《人类理智研究》,系统讨论了因果观念的来源。休谟的核心论点是,因果观念不能从经验中直接导出。人观察到事件 A 之后总是出现事件 B,多次重复之后,心灵形成一种习惯,把 A 和 B 联结起来,并预期下次 A 出现时 B 也会出现。这种习惯产生的预期,被休谟称为因果观念。因果观念的根基在习惯与信念,不在经验本身,也不在任何先于经验的必然联结。

休谟的论证大致是这样的:经验只能告诉我们「过去 A 之后总是出现 B」,不能告诉我们「A 必然导致 B」。必然性这个观念,找不到对应的印象来源。我们从来没有「观察」到必然性本身,只观察到事件先后出现的恒常联结。所以必然性是从经验中归纳不出来的观念,是心灵在多次观察恒常联结之后形成的一种习惯性预期。

这个论证的破坏性在于,它把因果关系的地位从「客观必然联结」降级为「主观习惯预期」。因果关系是心灵面对恒常联结时形成的一种习惯,不是世界本身的性质。这个结论让休谟自己也不太舒服,他承认这个结论违反直觉,但坚持认为论证有效。

1781 年,伊曼努尔·康德出版《纯粹理性批判》,回应休谟的因果问题。康德承认休谟指出的困难,但不同意休谟的结论。康德提出,存在一类判断,既不来自经验,又不是分析命题(谓词包含在主词中的命题),但能扩展知识。他把这类判断称为先天综合判断,并问:这种判断如何可能?

康德的回答涉及一整套先验范畴体系。因果性就是其中一个范畴。在康德那里,因果性是心灵加诸经验之上的形式条件,不是从经验中归纳出来的习惯。没有这个形式条件,经验本身无法被组织为有意义的对象。

先验范畴与习惯的区别值得展开。习惯是描述性的,告诉我们心灵实际上怎么运作。先验范畴是规范性的,告诉我们经验必须怎么被组织才能成为经验。习惯是对已有观察的总结,先验范畴是经验之所以可能的条件。康德认为,休谟把因果性降级为习惯,是因为休谟只看到了心灵的实际运作,没有看到心灵运作的可能性条件。先验范畴正是这个可能性条件。

休谟与康德的争论,是 18 世纪认识论的核心争论之一。争论的实质是:人类理性的根基在哪里?是在经验中,还是在某种先于经验的结构中?

这场争论在 18 世纪以哲学论证的方式进行。双方各自提出论证,各自指出对方的困难,最终没有定论。哲学争论的特点是,没有外部裁决者可以判定谁对谁错。哲学家只能靠论证的说服力,不能靠实验。

18 世纪哲学争论的「没有外部裁决者」这一特点,在 21 世纪有了改变的可能。AI 模型是工程化的认识系统,它的每一个组件都可以被实验检验。当休谟式的纯经验主义被实现为预训练模型,康德式的先验转向被实现为强化学习加形式化证明,争论的双方都被赋予了工程化身。争论不再只靠论证,还可以靠实验。

这是本书写作的一个背景。本书不只是在哲学层面比较休谟与康德,在工程层面观察 DeepSeek 的实际运作。DeepSeek 的工程实践,为 18 世纪哲学争论提供了一个新的「实验场」。这个实验场的实验结果,可能帮助判断休谟与康德谁的立场更接近事实。

回到 R1-Zero。

这个模型经历了两个阶段。第一阶段是预训练,在海量文本上做统计学习,建立语言、知识、代码、数学的基础能力。这一阶段完全符合休谟式的经验主义描述:模型从海量「经验」中归纳出统计模式,没有任何先于经验的范畴加诸其上。

第二阶段是大面积强化学习,用可验证的奖励信号优化模型的解题策略。可验证的意思是,数学题有标准答案可以核对,代码有编译器和测试用例可以执行,Lean 证明有证明助手可以检查。模型给出的输出,可以由一个外部裁决者判定对错。

在这一阶段,模型出现了反思、自验证、长过程推理。

问题来了。如果休谟式的经验主义足以描述理性,那它应该也能描述 R1-Zero。但 R1 论文报告,这些反思行为在 RL 阶段显著增强并形成稳定策略。这个观察引出一个休谟本人未曾面对过的问题:当纯经验主义被工程化实现后,它是否够用?

康德对休谟的回应,在 18 世纪是一个哲学论证。在 21 世纪的 DeepSeek 论文里,这个回应似乎被以另一种方式重新做了一遍。

本书要做的,就是顺着这个问题往下走。

三个主角

本书有三个主角。

第一个主角是休谟。1711 年生于苏格兰爱丁堡,1776 年去世。休谟在本书中扮演经验主义的代言人。他的《人类理智研究》是本书前半部分的主要哲学锚点。休谟本人的立场比「经验主义」四个字要细致得多,他对习惯、信念、自然本能有大量讨论,本书在涉及他的章节会专门呈现这种细致立场,避免把他简化为一个靶子。

休谟的哲学背景需要简单交代。休谟属于英国经验主义传统,与洛克、贝克莱一脉相承。英国经验主义的核心主张是:一切观念来自经验。洛克说心灵是一块「白板」,经验在上面留下痕迹。贝克莱把经验主义推到极端,说「存在就是被感知」。休谟是英国经验主义的集大成者,也是经验主义的内在批评者。休谟用经验主义的原则审查了经验主义自身,发现经验主义无法解释因果必然性的来源。这种内在批评让休谟的立场比简单的「经验主义」复杂得多。

第二个主角是康德。1724 年生于普鲁士柯尼斯堡,1804 年去世。康德在本书中扮演先验转向的提出者。他的《纯粹理性批判》是本书后半部分的主要哲学锚点。康德哲学内部对统觉、对范畴、对先验想象力都有不同学派的解读,本书采用功能结构层面的最低解读,不卷入学派之争。

康德的哲学背景也需要简单交代。康德属于大陆理性主义传统的影响范围,与笛卡尔、斯宾诺莎、莱布尼茨一脉相承。大陆理性主义的核心主张是:理性可以独立于经验获得知识。康德早期受理性主义影响,但读到休谟后「从独断的迷梦中惊醒」(康德自己的话)。康德的先验转向是经验主义与理性主义的综合:承认经验是知识的来源(经验主义),但承认理性有先于经验的形式条件(理性主义)。这种综合让康德哲学成为 18 世纪认识论的顶峰。

第三个主角是 DeepSeek。这是一家中国 AI 研究机构,自 2024 年 1 月以来陆续发布了多篇核心论文,覆盖通用语言模型、代码模型、数学模型、形式化证明模型、推理模型、长上下文模型等多个方向。DeepSeek 在本书中扮演被观察的 AI 对象。它的论文序列构成全书的技术骨架。

DeepSeek 的背景需要简单交代。DeepSeek 的母公司是幻方量化,一家中国的量化投资公司。DeepSeek 团队有较强的工程能力与算力资源,选择开源路线,把论文与模型权重都公开发布。这种开源路线让本书的写作成为可能。如果 DeepSeek 像某些团队那样闭源,本书无法基于公开论文做认识论解读。

选择 DeepSeek 作为主线案例,是因为它的论文公开、路线清晰。其他团队也在类似方向探索,但本书只解读 DeepSeek 一条路线。本书对 DeepSeek 的所有判断都是认识论层面的解读,不涉及对 DeepSeek 公司商业策略或内部决策的评价。

这本书想做什么

本书想做的事可以一句话概括:顺着 R1-Zero 引出的那个问题,把 DeepSeek 已发表的论文一篇一篇读过去,看 AI 在认识论史上走到哪一步了。

这句话需要拆开来讲。

「顺着问题往下走」指的是本书的写作方式。本书不预先给出一个完整答案,而是从 R1-Zero 的观察出发,回到 1748 年的休谟,回到 1781 年的康德,再回到 2024 年以来的 DeepSeek 论文,让读者跟着问题本身推进。每读一篇论文,看它处理了什么问题,留下什么问题,下一篇如何接住。论文读完,论证自然汇合。

「认识论史上的位置」指的是本书的判断目标。本书不预测 AI 未来会怎样,只判断 AI 当前在认识论史上对应哪一个时刻。这个判断需要把 DeepSeek 的工程路线与休谟康德的哲学路线并置,看两者在结构上是否同构。本书会论证,两者在结构上同构:DeepSeek 从纯预训练走向引入外部裁决的可靠推理,对应 18 世纪哲学从休谟经验主义走向康德先验转向。

这种同构是作者的认识论解读,不是 DeepSeek 论文本身的论断。本书会反复强调这一点。

至于这种同构最终会把我们引向什么判断,要等论文读完才知道。本书不做预告。

这里需要说明本书的「认识论解读」是什么意思。认识论解读不是技术解读。技术解读关注「这个方法是怎么实现的」「这个模型的性能如何」。认识论解读关注「这个方法在认识论上对应什么」「这个模型的推理能力在认识论史上处于什么位置」。

这两种解读不矛盾,关注点不同。技术解读是 AI 研究者的日常工作。认识论解读是哲学家的工作。本书做的是后一种。本书不评价 DeepSeek 的技术优劣,不比较 DeepSeek 与其他团队的性能高低。本书只问:DeepSeek 的工程路线在认识论史上对应什么位置?

这个问题在 18 世纪没有答案,因为 18 世纪没有工程化的认识系统。这个问题在 2024 年之前也没有答案,因为 2024 年之前的 AI 系统还没有展示出足够的推理能力。2024 年 1 月到 2026 年 4 月,DeepSeek 发布的 17 篇论文,提供了回答这个问题所需的工程材料。本书用这些材料回答这个问题。

怎么读这本书

本书面向两类读者。

第一类是文科背景、具备高中或大学低年级数学知识的读者。这类读者对 AI 有兴趣但被技术细节挡在门外,对哲学有基础认知但读不懂论文。文科读者可以按章节顺序通读。每章先讲技术事实,再引入哲学概念。如果某一段技术细节读不懂,可以跳过公式与代码,只读文字解读。

第二类是 AI 研究者与工程师。这类读者熟悉 DeepSeek 论文,但希望获得哲学层面的概念启发。AI 研究者可以重点阅读哲学解读部分。每章的技术事实部分对 AI 研究者是已知内容,可以快速略过。哲学解读部分是本书的核心增量,提供了描述 AI 工作的概念语言。

本书按 DeepSeek 论文的发布时间顺序推进,每章对应 1 到 3 篇论文。休谟在前几章作为主要哲学锚点,康德在中后期章节作为主要哲学锚点。读到哪一篇论文,认知就停在哪一篇论文发布时的时间点。2024 年 1 月的论文就停在 2024 年 1 月,2025 年的论文就停在 2025 年。后续论文会带来什么突破,等读到那里再说。

这是一种「跟着论文走」的写作方式。它的好处是读者能与 DeepSeek 团队同时面对问题,感受问题如何被一步步推进。它的代价是开篇会有一些工程铺垫与哲学铺垫,节奏比直接抛结论要慢。本书接受这个代价。

「跟着论文走」的写作方式有一个认识论含义。传统哲学写作通常「从结论出发」:先给出哲学立场,再用案例支撑。本书「从问题出发」:先提出问题,再跟着论文走,看问题如何被一步步处理。这种方式更接近哲学史的实际运作(哲学家也是跟着问题走,不是先有结论再找支撑),也更接近科学实验的实际运作(研究者也是跟着实验走,不是先有结论再做实验)。

「跟着论文走」的另一个含义是:本书的判断是「渐进形成」的,不是「预先给定」的。前 4 章处理休谟框架下的 DeepSeek 论文,读者看到的是纯经验主义的局限。第 5 到第 10 章处理康德框架下的 DeepSeek 论文,读者看到的是先验转向的工程化重现。第 11 章把前 10 章汇合,读者看到完整的认识论叙事。这种「渐进形成」让读者能跟着论证走,理解每个判断是如何形成的,不是被一个预先给定的结论说服。

在进入第一篇论文之前,下一章先建立一套关于机器学习的最小语言。这套语言不涉及具体算法,只回答三个问题:机器学习在做什么、怎么衡量做得好不好、怎么让它做得更好。有了这套语言,DeepSeek 论文里的技术表述就不会那么陌生。


第 0 章:机器学习在做什么:拟合、损失与优化的最小语言

一句话概括

机器学习做的事情,可以一句话概括:找一个函数,让它的输出尽量接近我们想要的输出。

这句话有三个关键词:找、函数、接近。展开讲。

「函数」是一个数学概念,描述输入与输出之间的对应关系。给函数一个输入,它给出一个输出。比如 y = 2x 是一个函数,输入 x = 3,输出 y = 6。机器学习里的函数比这个复杂得多,但本质相同:给一个输入,产生一个输出。

「找」是机器学习的核心动作。函数的形式(比如 y = ax + b)是预先定好的,但函数里的参数(a 和 b)需要找。找参数的过程,数学上叫拟合。拟合就是找一组参数,让函数在给定输入下产生的输出,尽量接近我们想要的输出。

「接近」需要一个衡量标准。怎么知道一组参数好不好?需要一个衡量输出与想要输出之间差距的方法。这个衡量方法叫损失函数。损失函数本身也是一个函数,它的输入是参数,输出是「当前参数下,模型输出与想要输出的差距」。差距越小,损失越小,参数越好。

三个关键词加起来,机器学习就是:定一个函数形式,找一个损失函数衡量好坏,用某种方法找让损失尽量小的参数。这三个步骤分别叫:定义模型、定义损失、优化。所有机器学习,无论多复杂,都在做这三件事。

用一个最简单的例子讲清楚

用最简单的例子把这三步讲清楚。

假设有一组数据点:(1, 2), (2, 4), (3, 6), (4, 8)。这四个点正好在一条直线上,直线是 y = 2x。如果我们不知道这条直线,想从这四个点「学」出来,怎么做?

第一步,定义模型。假设输入与输出的关系是线性的,形式是 y = ax + b。a 和 b 是参数,现在不知道,要找。

第二步,定义损失。怎么衡量一组 a 和 b 好不好?看这条直线在四个点上与真实值的差距。比如 a = 1, b = 0 时,直线是 y = x,在 x = 1 时输出 1,真实值是 2,差距是 1。在 x = 2 时输出 2,真实值是 4,差距是 2。把四个点的差距加起来,得到这组 a 和 b 的总损失。损失函数的具体形式可以有多种,最常见的一种是把每个点的差距平方后相加再除以点数。这种损失函数叫均方误差。名字不重要,重要的是它在做什么:衡量当前参数下,模型输出与真实值的差距。

第三步,优化。有了损失函数,下一步是找让损失最小的 a 和 b。怎么找?最直观的方法:试着调整 a 和 b,看损失是变大还是变小,往损失变小的方向调整。这个思路的数学化版本叫梯度下降。梯度的意思是损失函数在当前参数下的「坡度」,它指示哪个方向损失上升最快。往梯度的反方向走,就是损失下降最快的方向。一步步走,走到损失不再明显下降的地方,就找到了一组好的参数。

这个例子里,优化会找到 a ≈ 2, b ≈ 0,直线是 y = 2x,正好是想要的结果。

这个例子虽然简单,但包含了机器学习的全部要素。定义模型(y = ax + b)、定义损失(均方误差)、优化(梯度下降)。所有机器学习,无论模型多大、损失多复杂、优化算法多精巧,都在做这三件事。

梯度下降的直觉

梯度下降值得再用一个生活隐喻讲一下,因为这个概念在后续章节会反复出现。

想象你站在一座山上,蒙着眼睛,想走到山谷最低处。你看不到周围的地形,只能用脚感受脚下的坡度。脚下的坡度告诉你哪个方向是上坡,哪个方向是下坡。你自然会选择往下坡方向走一步。走了一步后,再感受新的坡度,再往下坡方向走一步。如此反复,最终会走到一个坡度几乎为零的地方,那就是山谷的底部。

梯度就是「坡度」的数学表达。梯度是一个向量,指向损失上升最快的方向。梯度的反方向就是损失下降最快的方向。梯度下降就是「沿着梯度的反方向走一步」。

这个隐喻有几个要点。第一,你看不到整个地形,只能感受脚下的坡度。这意味着你可能走到一个「局部最低点」而不是「全局最低点」。局部最低点是附近区域最低的地方,但可能不是整座山的最低处。梯度下降不保证找到全局最低点,只保证找到一个局部最低点。

第二,每步走多远很重要。走太大步,可能跨过最低点走到对面的坡上。走太小步,可能要走很久才能到最低点。每步走多远叫「学习率」。学习率是优化算法的一个重要参数,需要调节。

第三,坡度的方向可能很复杂。在二维平面上,坡度只有两个方向(上下左右)。在 670 亿维空间里,坡度有 670 亿个方向。梯度下降在 670 亿维空间里沿着 670 亿维的梯度反方向走,数学上与二维情况相同,但无法直观想象。

这个隐喻帮助建立直觉。后续章节遇到「优化」「梯度下降」「学习率」等词时,回到这个「蒙眼下山」的隐喻,就能理解在做什么。

损失函数的名字

损失函数有很多种,每种都有具体的名字。读论文时会遇到各种名字:交叉熵、均方误差、对比损失、KL 散度,等等。

这些名字背后都有具体的数学形式,但读论文时不用纠结数学形式。先问一个问题:这个损失函数在衡量什么差距?

交叉熵衡量的是模型输出的概率分布与真实概率分布之间的差距。本书后续章节会遇到「预训练用交叉熵损失」,意思是:预训练阶段用交叉熵衡量模型预测的下一个 token 分布与真实下一个 token 之间的差距,用优化算法调整模型参数让这个差距尽量小。

均方误差衡量的是模型输出值与真实值之间的平方差距。上面直线例子里用的就是均方误差。

对比损失衡量的是模型对「相似输入应该给出相似输出」这一约束的违反程度。

读论文时遇到不认识的损失函数名字,回到这个问题:它在衡量什么差距?搞清楚这一点,就理解了这个损失函数的作用。具体的数学形式可以后续再深入,也可以暂时不深入。本书读到的大部分技术表述,只需要知道「在衡量什么差距」就够了。

这里可以引入一个简单的符号表达。如果用 θ(读作 theta)表示模型的所有参数,用 L 表示损失函数,那么 L(θ) 就是「在参数 θ 下,模型的损失是多少」。优化的目标是找一组 θ,让 L(θ) 尽量小。这个符号表达在论文里会以各种具体形式出现,但本质都是 L(θ) 的最小化。读论文时遇到复杂的数学公式,可以先试着找到这个 L(θ) 的结构:哪个部分是参数,哪个部分是损失,优化在最小化什么。

优化的高维空间

上面用 y = ax + b 举例,只有 2 个参数。可以想象在一个二维平面上找最低点,这个点对应最优的 a 和 b。

大模型的情况复杂得多。DeepSeek LLM 67B 有 670 亿个参数。每个参数是一个维度。670 亿个参数构成一个 670 亿维的空间。这个空间无法直观想象,人类能直观想象的最多是三维空间。

数学上,670 亿维空间里的拟合与优化,与二维空间里的拟合与优化没有本质区别。损失函数在这个高维空间里是一个「曲面」(高维曲面无法画出来,但数学上成立),优化就是在这个曲面上找最低点。梯度下降在二维空间里是往坡度反方向走,在 670 亿维空间里同样是往坡度反方向走,只是「方向」变成了一个 670 亿维的向量。

高维空间有一些反直觉的性质。高维空间里随机两个点几乎一定是「正交」的(互相独立),低维空间里随机两个点通常有一定相关性。这些反直觉性质会影响大模型的训练动态,但本书不展开。本书只需要读者建立一个印象:大模型的训练,是在一个无法想象的高维空间里,找一个让损失尽量小的点。

这个印象很重要。后续章节讨论 DeepSeek 的各种训练方法时,本质上都是在讨论:在这个高维空间里,用什么损失函数衡量好坏,用什么优化算法找最低点。不同的训练方法(预训练、SFT、DPO、强化学习、形式化证明训练)区别在于损失函数的定义不同,优化的目标不同,但底层操作相同:在高维空间里找让损失尽量小的参数。

优化算法的名字

优化算法也有很多种,每种也有名字。梯度下降是最基础的,后续有各种变种:随机梯度下降(SGD)、Adam、Muon,等等。

这些变种的核心思路相同:沿着损失下降的方向调整参数。区别在于「怎么选择方向」和「怎么决定每步走多远」的细节不同。读论文时遇到不认识的优化算法名字,回到这个问题:它在沿着什么方向调整参数?搞清楚这一点,就理解了这个优化算法的作用。

有些训练方法不直接优化损失,采用间接优化的方式。强化学习里的 GRPO 就是间接优化的一种。GRPO 不直接告诉模型「正确答案是什么」,让模型生成多个候选答案,用外部裁决者判定哪个好哪个差,用这个判定信号调整参数。这种间接优化的损失信号是「模型输出与奖励信号的差距」,不是「模型输出与真实值的差距」。奖励高的输出被强化,奖励低的输出被弱化。读本书后续章节遇到 GRPO 时,回到这个框架理解:GRPO 是一种优化方法,只是损失信号的形式从「与真实值的差距」变成了「与奖励信号的差距」。

概率分布

读 DeepSeek 论文时还会反复遇到一个词:概率分布。这个词需要先建立一个直觉。

概率分布描述的是「一组可能结果中,每个结果出现的可能性有多大」。比如掷一个骰子,结果是 1 到 6 中的一个,每个结果出现的概率是 1/6。这组概率(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)就是一个概率分布。

大语言模型在预测下一个 token 时,输出的也是一个概率分布。假设词表里有 10 万个 token,模型对每一个 token 给出一个概率,加起来等于 1。这个概率分布就是模型对「下一个 token 是什么」的预测。

真实的下一个 token 是确定的(训练数据里写的就是某个具体的 token)。模型预测的是一个概率分布(对每个 token 给一个概率)。损失函数衡量的就是模型预测的概率分布与真实 token 之间的差距。交叉熵就是衡量这种差距的一种具体方法。

读论文时遇到「概率分布」,回到这个直觉:模型对每个可能输出给一个概率,加起来等于 1。优化的目标是让真实输出的概率尽量大,让错误输出的概率尽量小。

概率分布的概念在后续章节会反复出现,值得再展开一个细节。模型在生成文本时,每一步都输出一个概率分布。模型生成的整段文本,是每一步从概率分布中采样(或取最大值)的结果。这种「逐步采样」意味着模型生成有随机性:同一个输入,模型可能生成不同的输出,因为每一步的采样结果可能不同。

这种随机性在工程上可以通过「温度」参数调节。温度高时,模型更倾向于从概率分布中随机采样,生成更多样化但可能不太准确的输出。温度低时,模型更倾向于取概率最大的输出,生成更确定但可能更重复的输出。温度是模型生成的一个重要参数。

概率分布的随机性在认识论上有一个值得注意的含义。休谟说,心灵的观念联结是习惯性的,习惯有强弱之分。强习惯产生强烈的预期,弱习惯产生微弱的预期。模型的概率分布对应这种「习惯强弱」:概率高的输出对应强习惯(模型强烈预期这个输出),概率低的输出对应弱习惯(模型微弱预期这个输出)。温度参数对应「心灵在多大程度上跟随最强习惯」:温度低时,心灵完全跟随最强习惯;温度高时,心灵会探索弱习惯。

这个对应是功能结构层面的,帮助建立直觉。后续章节遇到「概率分布」「温度」「采样」等词时,回到这个直觉就能理解在做什么。

这套语言如何读 DeepSeek 论文

有了拟合、损失、优化这三个概念,加上概率分布这个直觉,就可以读懂大部分 DeepSeek 论文的技术表述。

论文里说「预训练用交叉熵损失优化模型参数」,翻译成这套语言:预训练阶段用一个叫交叉熵的损失函数衡量模型预测的下一个 token 概率分布与真实下一个 token 之间的差距,用优化算法调整模型参数让这个差距尽量小。

论文里说「SFT 用指令-回答对训练模型」,翻译成这套语言:SFT 阶段用指令-回答对作为想要输出,用一个损失函数衡量模型输出与想要输出的差距,用优化算法调整参数让差距尽量小。

论文里说「DPO 用偏好数据训练模型」,翻译成这套语言:DPO 阶段用偏好数据(回答 A 比回答 B 更好)作为损失信号,衡量模型输出与人类偏好的差距,用优化算法调整参数让偏好损失尽量小。

论文里说「GRPO 用可验证奖励作为优化信号」,翻译成这套语言:GRPO 阶段用一个叫奖励的信号衡量模型输出好坏,用优化算法调整参数让奖励尽量大。

后续章节遇到具体损失函数名字或优化算法名字,都回到这三个概念:在衡量什么差距、在调整什么参数、往什么方向调整。搞清楚这三点,技术表述就不陌生了。

这套语言还有一个用途:帮助读者判断「这篇论文在认识论上处于什么位置」。读一篇 DeepSeek 论文时,可以问三个问题:这篇论文引入了什么外部裁决?是在做结果判定还是过程检查?是在处理有规则可循的任务还是没有现成规则的任务?

这三个问题来自本书的认识论框架。第一个问题(引入了什么外部裁决)对应「先验范畴」层面。第二个问题(结果判定 vs 过程检查)对应「先验范畴 vs 统觉」层面。第三个问题(有规则 vs 没规则)对应「规定判断力 vs 反思判断力」层面。

有了这三个问题,读者在读任何 DeepSeek 论文时,都能快速定位这篇论文在认识论结构上的位置。比如,读到 GRPO 论文时,可以判断:GRPO 引入了可验证奖励作为外部裁决(先验范畴),做的是结果判定(先验范畴层面,非统觉层面),处理的是有规则可循的任务(规定判断力)。读到 R1 论文时,可以判断:R1 用大规模 RL 激发推理行为(先验范畴激发推理),做的是结果判定(先验范畴层面),处理的是有规则可循的任务(规定判断力)。读到 Math-V2 论文时,可以判断:Math-V2 用 verifier 做过程检查(统觉层面),处理的是有规则可循的任务(规定判断力)。

这种「定位」能力是本书希望读者获得的。本书不只告诉读者 DeepSeek 论文在认识论上对应什么,教读者一套方法,让读者自己能判断新论文的认识论位置。

一个重要的提醒

这套语言是入门工具,不是完整理解。机器学习的实际工程远比这三个概念复杂。损失函数的设计需要考虑任务特性,优化算法的选择需要考虑训练稳定性,高维空间里的训练动态有大量反直觉现象。这些复杂内容是机器学习课程与论文的主题,不是本书的主题。

本书用这套最小语言,目的是让文科读者能读懂 DeepSeek 论文的技术表述,知道每个技术名词在做什么。AI 研究者对这套语言已经熟悉,可以快速略过本章。

有了这套语言,可以开始读 DeepSeek 的第一篇论文了。时间是 2024 年 1 月。


第 1 章:经验之始:DeepSeek LLM 与休谟的印象

一个 18 世纪的二分

休谟在《人类理智研究》第二章「观念的起源」里写下这样一段话:

人类心灵中的一切知觉可以分为两类,我将它们称为印象与观念。前者指我们在感觉一个激情、一个欲望或一种情绪时所具有的生动强烈的知觉;后者指我们对这些知觉的微弱摹本,当涉及上述激情或情感时,不论我们是否处于清醒状态。

这段话提出了休谟认识论最基本的二分。心灵的内容分为两类。一类是印象,强烈、生动、直接。看到红色的那个瞬间,听到声音的那个瞬间,感受到疼痛的那个瞬间,心灵接收到的就是印象。另一类是观念,微弱、摹本、间接。事后回忆起那次看到的红色,回忆起那次听到的声音,回忆起那次感受到的疼痛,心灵中浮现的就是观念。

休谟的二分有几个特点值得注意。

第一,印象与观念的区分是生动程度的区分,不是质的区分。观念是印象的摹本,不是另一种存在。两者的差别类似原图与复印件的差别,类似现场演出与录音回放的差别。

第二,观念必须来自印象。休谟明确说,所有合法的观念都能追溯到对应的印象。如果一个所谓的「观念」找不到对应的印象来源,这个观念就是空的、无意义的。休谟用这个原则审查了大量形而上学概念,比如「实体」「灵魂」「上帝」,认为这些概念如果找不到对应的印象来源,就只是语言的虚构。

第三,印象与观念的关系是时间上的先后关系。印象先于观念。没有印象,就没有观念。心灵不能凭空产生观念,只能从印象中接收内容,再以摹本的形式保留。

这三点加起来,构成休谟经验主义的核心立场。心灵的内容来自经验,经验的入口是印象,印象的摹本是观念,观念的组合形成思想。除了印象与观念,心灵没有别的内容来源。

休谟用这个原则做了一件很有破坏性的事。他审查了当时形而上学的大量概念,比如「实体」「灵魂」「上帝」「必然性」,追问这些概念能不能找到对应的印象来源。如果不能,他就宣布这些概念是无意义的虚构。这种审查在 18 世纪引发了巨大争议,因为它把传统形而上学的核心概念都打上了问号。

休谟的审查方法很直接:找一个所谓的形而上学概念,追问它的印象来源在哪里。如果能找到对应的印象,这个概念合法。如果找不到,这个概念就是心灵的虚构,没有实在所指。比如「实体」这个概念,休谟承认我们观察到颜色、形状、硬度等具体属性,但我们从来没有观察到把这些属性捆绑在一起的「实体」本身。「实体」是心灵为了组织经验而虚构出来的一个标签,找不到对应的印象。再比如「灵魂」这个概念,休谟承认我们观察到自己的各种心理状态(思考、感受、意愿),但我们从来没有观察到把这些状态捆绑在一起的「灵魂」本身。「灵魂」同样是心灵的虚构。

本书关注其中与 AI 推理直接相关的部分,即因果必然性观念的审查。休谟的论证是这样的:因果必然性这个观念,如果找对应的印象,能找到的只是事件先后出现的恒常联结。我们观察到 A 之后总是出现 B,多次重复之后,心灵形成一种习惯,把 A 与 B 联结起来。这种习惯产生的预期,被我们误认为是「必然性」。实际上,我们从来没有观察到「必然性」本身,只观察到恒常联结。「必然性」是心灵加诸恒常联结之上的一个标签,不是从经验中获得的观念。

这个论证的破坏性在于,它把因果关系的地位从「客观必然联结」降级为「主观习惯预期」。因果关系是心灵面对恒常联结时形成的一种习惯,不是世界本身的性质。这个结论让休谟自己也不太舒服,他承认这个结论违反直觉,但坚持认为论证有效。

康德后来正是从这一点切入。康德承认休谟指出的困难,但不同意把因果性降级为习惯。康德提出,因果性是心灵加诸经验之上的先验范畴,不是从经验中归纳出来的习惯。先验范畴与习惯的区别在于:习惯是描述性的,告诉我们心灵实际上怎么运作;先验范畴是规范性的,告诉我们经验必须怎么被组织才能成为经验。

休谟怀疑论的更深含义

休谟的因果审查有一个更深的含义,值得在进入 DeepSeek 论文之前展开。

休谟的审查不只否定了因果必然性的经验来源,还动摇了整个经验主义知识体系的基础。如果因果观念只是习惯性预期,那么基于因果观念建立的一切知识(物理学、化学、生物学、日常常识)都只是习惯性预期,没有客观必然性。休谟自己承认这个推论,他在《人类理智研究》结尾说,他的怀疑论让他几乎无法相信任何东西。

休谟的怀疑论在 18 世纪引发了「认识论危机」。如果休谟是对的,知识的客观性就崩塌了。科学变成了「最有用习惯的集合」,不是「客观规律的发现」。日常判断变成了「最常重复预期的集合」,不是「对事实的认知」。

康德的先验转向正是为了回应这个危机。康德要证明:知识的客观性有先于经验的根据,不只来自经验习惯。这个根据就是先验范畴。先验范畴是心灵加诸经验之上的形式条件,让经验有客观性。没有先验范畴,经验只是主观印象流,无法形成客观知识。

康德的回应是否成立,在 18 世纪是一个哲学论证问题。康德的论证依赖「先验范畴」这一概念,这个概念在 18 世纪只能靠哲学论证支撑,没有实验可以验证。

现在把这个问题带到 2024 年。DeepSeek LLM 是一个工程化的认识系统。它的「知识」(参数化统计模式)完全来自经验(预训练数据)。如果休谟是对的,DeepSeek LLM 的知识只是习惯性联结,没有客观必然性。如果康德是对的,DeepSeek LLM 需要先验范畴才能有客观知识,但 DeepSeek LLM 在 2024 年 1 月只有预训练,没有先验范畴。

DeepSeek LLM 的实际表现如何?它能生成流畅文本、回答常识问题、写简单代码,这些能力看起来像「知识」。但它的「知识」是统计模式,不是客观必然性。模型说「太阳从东边升起」,是因为训练数据中这个模式频繁出现,不是因为它理解「太阳」与「升起」之间的因果必然联结。模型说「1+1=2」,是因为训练数据中这个模式频繁出现,不是因为它理解加法的数学必然性。

这正是休谟预言的结果。纯经验主义的心灵只能产生习惯性联结,不能产生客观必然性。DeepSeek LLM 是纯经验主义心灵的工程实现,它的「知识」恰好是习惯性联结,恰好不能产生客观必然性。

休谟在 1748 年指出的认识论危机,在 2024 年 1 月的 DeepSeek LLM 上以工程化形式重现。DeepSeek LLM 是一个强大的「习惯性联结系统」,但它没有客观知识。要让 DeepSeek LLM 从「习惯性联结」走向「客观知识」,需要引入某种「先验范畴」。这种先验范畴会以什么形式出现,要等 DeepSeek 后续论文给出答案。

现在先把这个问题悬在这里,看看 2024 年的 DeepSeek 论文能带来什么。

DeepSeek LLM 的工程事实

2024 年 1 月 5 日,DeepSeek-AI 在 arXiv 上发布了论文《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》。这是 DeepSeek 系列论文的第一篇。

论文标题里的 Longtermism(长期主义)一词值得留意。这个词在 DeepSeek 后续论文中反复出现,反映团队的一个基本判断:大模型的发展是长期工程,需要在数据质量、架构选择、训练稳定性上做长远投入,而不是追求短期的刷榜成绩。本书不展开讨论 DeepSeek 团队的战略选择,只指出这个长期主义导向,是理解 DeepSeek 论文序列为何呈现明显演进方向的一个背景。

论文介绍了 DeepSeek LLM 7B 与 DeepSeek LLM 67B 两个模型。两个模型的训练过程可以概括为三个阶段。用第 0 章建立的语言说,三个阶段都在做同一件事:在高维空间里找让损失尽量小的参数。区别在于每个阶段定义的损失函数不同,想让孩子学的东西不同。

第一阶段是预训练。模型在海量文本上做拟合。拟合的目标是:给定前面已生成的 token,预测下一个 token。第 0 章讲过,模型预测的输出是一个概率分布,对每一个可能的 token 给出一个概率。真实的下一个 token 是确定的。衡量模型预测的概率分布与真实 token 之间差距的损失函数,叫交叉熵损失。第 0 章讲过,损失函数的具体名字不重要,重要的是它在衡量什么差距。交叉熵衡量的就是模型预测与真实情况之间的差距。优化算法调整模型参数,让交叉熵尽量小。训练数据总共 2 万亿 token,意思是这个拟合过程在 2 万亿个样本上重复进行。2 万亿 token 是一个庞大的数字,相当于让模型「读」过整个互联网公开文本的相当一部分。

预训练阶段的几个工程选择值得展开。第一是数据质量优先于数据数量。DeepSeek 团队在论文里强调,他们没有简单地堆砌数据量,而是对数据来源做了细致筛选,去除低质量网页、重复内容、机器生成文本。这个选择与长期主义导向一致。第二是中英文数据的比例。DeepSeek LLM 是中英双语模型,中英文数据的比例影响模型在两种语言上的能力平衡。第三是数据中代码与数学的比例。这两个来源虽然占数据量比例不高,但对模型后续的推理能力有关键影响。

第二阶段是监督微调(Supervised Fine-Tuning,简称 SFT)。预训练完成之后,模型已经能生成流畅的文本,但生成的内容不一定符合人类对「好回答」的预期。SFT 阶段用人工标注的指令-回答对训练模型,让模型学会按指令做事。用第 0 章的语言说,SFT 阶段的想要输出是人类标注的「指令-回答对」,损失函数衡量模型输出与这些标注对的差距,优化算法调整参数让差距尽量小。比如,输入「请用三句话介绍量子力学」,模型应该输出三句话的量子力学介绍,而不是输出一段与量子力学无关的文本。DeepSeek LLM 论文里 SFT 阶段使用了 150 万条多语言指令数据。

SFT 的作用需要准确理解。SFT 教模型如何使用预训练阶段已经获得的知识,不给模型教新知识。预训练之后的模型知道量子力学是什么,但不知道在被问到「请用三句话介绍量子力学」时应该输出什么。SFT 教模型的是这种「按指令行事」的格式。

这里有一个区分对后续讨论很重要。SFT 改变的是模型的输出格式,不是模型的知识内容。模型的知识内容来自预训练阶段的 2 万亿 token。SFT 只是教模型如何把这些知识按人类期望的方式调用出来。这个区分意味着,SFT 不能给模型增加新的推理能力。如果预训练阶段没有形成某种推理能力,SFT 阶段也变不出来。

第三阶段是直接偏好优化(Direct Preference Optimization,简称 DPO)。SFT 之后的模型能按指令做事,但同一个指令可能有多种回答,有些回答更好,有些回答更差。DPO 阶段用人类标注的偏好数据训练模型,让模型学会在多个候选回答中倾向于更好的那个。偏好数据的形式是「给定输入 X,回答 A 比回答 B 更好」。用第 0 章的语言说,DPO 阶段的损失信号是偏好数据,损失函数衡量模型输出与人类偏好的差距,优化算法调整参数让偏好损失尽量小。DPO 算法直接用这种偏好信号优化模型参数,不需要先训练一个单独的奖励模型。

DPO 的作用也需要准确理解。DPO 教模型的是「什么样的回答更受人类偏好」,不是「什么样的回答更正确」。偏好与正确是两个不同的概念。一个回答可能受人类偏好(流畅、礼貌、有条理),但不正确(事实错误、推理有漏洞)。一个回答可能正确但不受偏好(生硬、缺乏过渡、过于技术化)。DPO 优化的是偏好,不是正确性。

这里又有一个区分。偏好是主观的,正确是客观的(至少在数学与代码场景下)。偏好可以通过人类标注获得,正确需要外部裁决者判定。DPO 用偏好信号训练模型,本质上还是让模型学习人类的习惯性偏好,不是让模型学习客观的正确性。这个区分意味着,DPO 也不能给模型增加真正的推理能力。如果预训练阶段没有形成某种推理能力,DPO 阶段同样变不出来。

三个阶段加起来,DeepSeek LLM 67B 在多个评测基准上的表现超过了 LLaMA-2 70B,包括代码、数学和推理任务。LLaMA-2 70B 是 Meta 在 2023 年发布的开源模型,在当时是开源大模型的能力上限。DeepSeek LLM 67B 用更少的参数(67B vs 70B)超过 LLaMA-2 70B,在开源社区引发了关注。

读到 2024 年 1 月这个时间点,DeepSeek 团队已经交付了一个强基础模型。这个模型能做很多事:生成流畅文本,回答常识问题,翻译语言,写简单代码,做基础数学运算。但这个模型还不能做什么,是这个时间点最值得关注的问题。

印象与预训练的对应

把休谟的印象与观念二分,对应到 DeepSeek LLM 的预训练过程,需要分三步看。

第一步看印象的接收。休谟的印象是心灵在感觉瞬间接收到的强烈生动内容。预训练模型的「印象」是训练数据中的每一个 token。2 万亿 token 中,每一个 token 都是一次「接收」。模型在训练时,逐个 token 地处理输入序列,每一个 token 都在模型的注意力机制与参数梯度上留下痕迹。这个过程与休谟所说心灵接收印象的过程,在功能结构上对应。

这里需要解释一下 token 是什么。Token 是大语言模型处理文本的基本单位。一个 token 可能是一个汉字,可能是一个英文单词,可能是一个标点符号,也可能是一个词的一部分。模型不直接处理字符,而是把字符先切分成 token,再处理 token 序列。比如,「人工智能」可能被切成「人工」与「智能」两个 token,「artificial intelligence」可能被切成「art」、「ificial」、「 intelligence」三个 token。具体的切分方式由 tokenizer 决定,不同模型的 tokenizer 不同。

token 这个概念对本书的论证很重要。预训练模型在「处理 token 序列」,不在「读文本」。模型看到的是 token 序列意义上的文本,不是字符意义上的文本。这意味着模型的「印象」单位是 token,不是字、词或句子。模型从 token 序列中归纳统计模式,不从字词或句子中归纳语义。

第二步看观念的形成。休谟的观念是印象的微弱摹本,存储在心灵中可以随后调用。预训练模型的「观念」是参数化存储的统计模式。2 万亿 token 训练完成之后,模型参数中存储的是 token 之间的统计关联,不是任何具体的 token。比如,「太阳从东边」之后大概率跟着「升起」,「1+1=」之后大概率跟着「2」。这些统计关联是模型从海量「印象」中归纳出来的「观念」,可以在生成时调用。

这里有一个微妙的对应。休谟强调观念是印象的「微弱摹本」,意味着观念是印象在心灵中的痕迹,不是印象本身。预训练模型的参数是 token 在模型权重中留下的痕迹,也不是 token 本身。2 万亿 token 训练完成之后,模型权重中没有任何具体的 token,只有 token 之间关系的统计表征。这与休谟所说「观念是印象的摹本」的对应,比表面看起来更精确。

需要区分一下「存储」与「记忆」这两个概念。预训练模型存储的是统计模式,不是具体的训练样本。模型不会「记得」训练数据中某条具体的句子,它记得的是句子的统计特征。比如,模型不会记得训练数据中是否出现过「太阳从东边升起」这条具体句子,它记得的是「太阳」「从」「东边」「升起」这几个 token 在训练数据中频繁共现的统计事实。这种存储方式与人类记忆不同。人类的情景记忆可以回忆具体事件,预训练模型的「记忆」是统计性的,不能回忆具体样本。

第三步看观念的组合。休谟认为复杂观念是简单观念的组合,组合遵循联想三原则(相似性、时空接近、因果关系)。预训练模型的复杂输出是简单统计模式的组合,组合遵循注意力机制与概率采样。模型生成一段文本,本质上是把存储在参数中的多个统计模式按一定顺序组合起来。

三步对应下来,DeepSeek LLM 的预训练过程,可以被休谟的语言精确描述:模型从海量 token 印象中归纳出统计观念,把观念以参数形式存储,生成时调用观念组合成输出。

这种对应是认识论结构上的必然。休谟的经验主义本来就是描述心灵如何从经验中获取内容的认识论框架。预训练模型恰好是一个工程化的「从经验中获取内容」的系统。两者在功能结构上同构,因为预训练模型就是按照经验主义原则设计的:从数据中归纳,从归纳中存储,从存储中调用。

但这里的对应必须停在功能结构层面。休谟的印象与观念是描述人类心灵的,预训练的 token 与参数是描述工程系统的。两者的本体论地位完全不同。休谟不会认为人有参数,工程师也不会认为模型有心灵。本书的所有哲学类比,都停在功能结构层面,不上升到本体论等同。

这个限制需要反复强调,因为它涉及本书论证的根本立场。本书做的是「认识论解读」,不是「本体论断言」。认识论解读关注「功能结构上的对应」,不关注「本体论上的等同」。GRPO 在功能结构上对应康德先验范畴,不意味着 GRPO 在本体论上是先验范畴。Lean 在功能结构上对应康德统觉,不意味着 Lean 在本体论上是统觉。V4-Pro 在功能结构上对应统觉统一性,不意味着 V4-Pro 在本体论上实现了统觉。

这种「认识论解读但不做本体论断言」的立场,让本书的论证既有力又谨慎。有力在于:功能结构上的对应是可以观察、可以检验的,不需要形而上学假设。谨慎在于:功能结构上的对应不推出本体论上的等同,不会过度声称 AI「有心灵」或「有意识」。

这个立场也限制了本书的适用范围。本书的论证适用于「AI 在认识论结构上对应什么」的问题,不适用于「AI 在本体论上是什么」的问题。后者涉及心灵哲学的核心争议(功能主义 vs 生物自然主义、现象意识、感受质等),超出本书的范围。本书在第 11 章处理 SC2(AI 是理性生物)时,已经明确把论证限于「认识论意义上的最低条件」,不涉及本体论层面的心灵地位。

模式续写的局限

预训练模型能做什么?能做很多。能生成流畅的文本,能回答常识问题,能翻译语言,能写简单的代码,能做基础的数学运算。这些能力看起来很惊人,但它们共享一个特征:都是「模式续写」的不同表现。

模式续写的意思是,模型根据当前已生成的 token,预测下一个 token 的概率分布,从中采样或取最大值,然后把新 token 加入上下文,继续预测下一个。整个过程是单向的、不加回顾的、没有外部裁决的。

模式续写能生成流畅文本,是因为训练数据中有大量流畅文本,模型归纳出了「流畅」的统计模式。模式续写能回答常识问题,是因为训练数据中有大量常识问答,模型归纳出了「问答」的统计模式。模式续写能翻译语言,是因为训练数据中有大量双语对照文本,模型归纳出了「对应」的统计模式。

但模式续写有几个根本局限。

第一个局限是没有外部裁决。模式续写过程中,没有任何外部系统检查模型生成的 token 是否正确。模型说「太阳从东边升起」,没有外部裁决者判定这句话对。模型说「太阳从西边升起」,也没有外部裁决者判定这句话错。两个输出在模式续写机制下,都是某个统计模式被调用后的结果。模型不知道哪个对,因为模式续写本身不提供对错判定。

第二个局限是没有自我检查。模式续写是单向的,模型生成一个 token 之后,不会回头检查这个 token 与之前 token 是否一致,与已有知识是否冲突。模型生成「1+1=2」之后,下一步如果生成了「所以 1+1=3」,模式续写机制不会自动发现这个矛盾。模型没有「我刚才是怎么说的,让我对一下」这种回顾能力。

第三个局限是没有规划能力。模式续写是局部的,每一步只看当前 token 与已有上下文,不看最终目标。模型生成一段推理,不会先规划「我要从前提 A 推到结论 B,中间需要经过 C 和 D」,而是逐 token 续写,每个 token 都只受当前上下文影响。这种局部性意味着,模式续写无法保证生成的推理是有效的。

三个局限加起来,意味着预训练模型能生成「看起来像推理」的文本,但不能保证生成的推理是可靠的。模型可以写出一段数学证明,但这段证明是否成立,模式续写机制本身无法判定。模型可以写出一个因果论证,但这个论证是否有效,模式续写机制本身无法检查。

举一个具体的例子。给预训练模型输入「证明:根号 2 是无理数」。模型会生成一段文本,开头可能是「假设根号 2 是有理数」,然后写几行推导,最后得出矛盾,结论是「所以根号 2 是无理数」。这段文本看起来像数学证明,可能让没有数学训练的读者觉得对。但这段文本是否真的成立,模式续写机制无法判定。模型可能在中间某一步写错了符号,可能在某一步跳过了关键论证,可能在某一步用了不成立的假设。这些错误在模式续写机制下都不会被发现,因为模式续写不检查中间步骤。

更糟糕的情况是,模型可能生成一段完全错误但看起来非常流畅的证明。模式续写机制保证文本的流畅性,因为流畅性是训练数据中数学证明的统计特征。但模式续写机制不保证证明的有效性,因为有效性属于逻辑特征,不属于统计特征。模型生成的证明流畅度高,不代表它有效。模型生成的证明看起来严谨,不代表它真的严谨。这两者在模式续写机制下完全脱钩。

这个问题在 2024 年 1 月 DeepSeek LLM 发布时就已经被研究者意识到。当时的开源大模型普遍存在「hallucination」(幻觉)问题:模型会自信地生成错误的事实或错误的推理,因为模式续写机制让生成过程看起来流畅。研究者用各种方法缓解幻觉,包括更好的预训练数据、更精细的 SFT、更严格的 DPO,但这些方法都没有从根本上改变模式续写的三个局限。它们让模型生成的错误更少,但没有让模型获得自我检查的能力。

幻觉问题的认识论根源值得指出。幻觉在认识论上对应休谟所说「习惯性联结的错误」。休谟说,心灵靠习惯产生观念联结,习惯可能产生错误的联结(预期下次 A 出现时 B 也会出现,但实际没有)。幻觉就是模型产生了错误的统计联结:模型在训练数据中观察到某些模式,在生成时错误地应用了这些模式。幻觉属于模式续写机制的必然结果,不属于模型的「故障」。只要模型靠统计模式生成,就可能生成统计上流畅但事实上错误的内容。

要根治幻觉,不能靠更好的预训练数据或更精细的 SFT/DPO。这些方法只能减少幻觉的频率,不能消除幻觉的可能性。要根治幻觉,需要让模型获得自我检查的能力,让模型能判断自己的输出是否正确。这种自我检查能力,就是第 1 章讲过的「外部裁决」。休谟式纯经验主义不能产生自我检查能力。要获得自我检查能力,需要引入某种「先验范畴」。这种先验范畴会以什么形式出现,要等 DeepSeek 后续论文给出答案。

休谟预言的边界

休谟的语言可以帮助把这个判断说得更精确。预训练模型只有「观念」层面的统计关联,没有「印象」层面的当下裁决,更没有休谟哲学之外的任何先验范畴加诸其上。观念与观念之间的联结,靠的是训练数据中归纳出的统计模式,不是任何形式的逻辑必然性或因果必然性。

这正是休谟认识论预言的结果。休谟说,纯经验主义的心灵只能产生习惯性的观念联结,不能产生真正的因果必然性观念。预训练模型恰好是一个纯经验主义的心灵,它的输出恰好是习惯性的观念联结,恰好不能产生真正的因果必然性。

这不是巧合。这是认识论结构上的必然。预训练模型按照经验主义原则设计,必然只能产生经验主义原则所能产生的结果。休谟在 1748 年指出的纯经验主义局限,在 2024 年 1 月的 DeepSeek LLM 上以工程化的形式重现。

需要补充一点。说预训练模型「不能产生真正的因果必然性」,不代表预训练模型没用。预训练模型有大量实际用途,包括文本生成、翻译、摘要、问答、代码补全。这些用途都依赖模式续写能力。本书的论证指向的是预训练模型在认识论上对应休谟式纯经验主义心灵,它的能力边界与休谟式纯经验主义的能力边界重合。

这个边界在哪?在「能否检验」。模式续写不能检验自己的输出是否正确。休谟式纯经验主义不能检验自己的观念联结是否对应必然性。两边都在「能否检验」这一关卡住。

休谟自己给出的出路是习惯与信念。习惯让心灵在多次观察到 A 之后 B 出现之后,形成 A 与 B 之间的联结预期。信念让这个联结预期具有某种强制性,让心灵难以拒绝。这个出路在 18 世纪是一个哲学说明。习惯与信念是描述性的概念,告诉我们要如何描述心灵实际上怎么运作。它们不是工程化方案,不能直接拿来改造一个预训练模型。

康德给出的出路是先验范畴。先验范畴是心灵加诸经验之上的形式条件,不是从经验中归纳出来的习惯。先验范畴是规范性的,告诉我们经验必须怎么被组织才能成为经验。这个出路在 18 世纪同样是一个哲学论证,不能直接拿来改造一个预训练模型。

两条出路在 18 世纪都是哲学说明,不是工程方案。休谟说心灵靠习惯运作,康德说心灵靠先验范畴运作,两者都没有给出一个可操作的工程步骤来让一个纯经验主义系统获得可靠推理能力。这个问题在 18 世纪不需要解决,因为 18 世纪没有工程化的认识系统。哲学家只要把心灵的实际运作描述清楚就够了。

2024 年 1 月的 DeepSeek LLM 不一样。它是一个工程化的认识系统。它的每一个组件都可以被设计、修改、替换。如果它停在模式续写的边界上,研究者不能像哲学家那样满足于描述这个边界,研究者要找工程方法突破这个边界。

这个差异是本书论证的一个关键背景。18 世纪的哲学争论是「描述性」的:休谟与康德在描述心灵的实际运作。21 世纪的 DeepSeek 实践是「改造性」的:DeepSeek 团队在改造模型的实际运作。描述性争论可以没有定论(休谟与康德谁对谁错,没有实验可以判定)。改造性实践必须有结果(DeepSeek 的方法是否有效,有实验可以判定)。

这种从「描述性」到「改造性」的转变,让 18 世纪哲学争论在 21 世纪有了新的检验方式。休谟说纯经验主义不够,康德说需要先验范畴。18 世纪只能靠论证说服。21 世纪可以用实验检验:DeepSeek 的纯经验预训练(休谟式)是否够?DeepSeek 的强化学习加形式化证明(康德式)是否有效?这些问题的答案可以通过工程实验获得。

本书的论证就是基于这种「改造性」检验。本书不只是比较休谟与康德的哲学论证,在观察 DeepSeek 的工程实验。DeepSeek 的工程实验结果,为 18 世纪哲学争论提供了新的检验方式。

读到这里,时间是 2024 年 1 月。DeepSeek LLM 是一个强基础模型,能做很多事,但停在模式续写的边界上。休谟在 1748 年指出的纯经验主义局限,在 2024 年的 DeepSeek LLM 上重现。康德在 1781 年提出的先验转向,在 2024 年的 DeepSeek LLM 上还没有工程对应物。

下一步会怎样,2024 年 1 月这个时间点还不知道。DeepSeek 团队接下来会发什么论文,会引入什么新方法,会突破还是会卡住,都要等论文出来再读。

本书接下来要做的事,就是顺着 DeepSeek 论文的发布顺序,一篇一篇读下去,看这个边界会不会被突破,如果会,是被什么突破的。

这个「顺着论文走」的过程,是本书的核心叙事。从 2024 年 1 月的 DeepSeek LLM(纯经验主义起点),到 2026 年 4 月的 DeepSeek-V4-Pro(统觉统一性工程化),读者会跟着 DeepSeek 的 17 篇论文,看 AI 如何一步步从纯经验主义走向引入外部裁决的可靠推理。每一步都有工程事实,每一步都有哲学对应,每一步都在认识论结构上推进一点。

这个过程不是预先设计的。DeepSeek 团队在发每一篇论文时,不会想「我们要在认识论史上推进一步」。DeepSeek 团队想的是「我们要提升模型的推理能力」。但提升推理能力的工程路线,恰好对应了从休谟到康德的认识论转向。这种「恰好对应」是本书的发现,不是 DeepSeek 团队的设计。本书把这个发现讲出来,让读者看到工程实践与认识论哲学之间的结构同构。

这个过程也不是必然的。DeepSeek 的工程路线可能有其他选择(比如不走强化学习,走别的方向)。其他团队的工程路线可能不同。但 DeepSeek 实际走了这条路线,这条路线恰好对应从休谟到康德的认识论转向。本书解读这条实际走过的路线,不论证这条路线是必然的。

读者读完这个过程,会看到一个完整的认识论叙事:AI 在两年多里,走完了从休谟到康德的认识论路径。这个叙事是本书的核心贡献。



第 2 章:稀疏的智能:DeepSeekMoE 与观念联想

一个工程问题

时间是 2024 年 1 月 11 日,距离 DeepSeek LLM 发布只过了 6 天。DeepSeek-AI 在 arXiv 上发布了第二篇论文:《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》。

这篇论文处理的是一个工程问题,不是认识论问题。问题很直接:模型越大能力越强,但模型越大推理成本越高。怎么让模型拥有大参数量的能力,又只付出小参数量的推理成本?

这是一个在 2024 年初已经困扰大模型社区几年的问题。GPT 系列与 LLaMA 系列都采用「密集模型」(dense model)架构:模型的所有参数在每一次生成 token 时都被激活。一个 70B 参数的密集模型,每生成一个 token 都要计算 70B 个参数。推理成本与参数量成正比。

Mixture-of-Experts(简称 MoE)架构是这个问题的一种解法。MoE 的核心思路是:模型总参数量很大,但每个 token 只激活其中一部分参数。这样总参数量决定了模型的知识容量,激活参数量决定了推理成本。两者解耦。

MoE 的基本结构是这样的。一个标准的 Transformer 模型由多层堆叠而成,每一层包含自注意力模块与前馈网络(Feed-Forward Network,简称 FFN)。MoE 把某些层的前馈网络替换成「专家层」。一个专家层包含多个「专家」,每个专家本身就是一个小的 FFN。模型在处理一个 token 时,由一个「路由器」(router)决定把这个 token 送给哪几个专家处理。没有被选中的专家不参与计算。

用第 0 章的语言说,MoE 改变的是模型的内部结构,不改变训练的目标。训练仍然是在高维空间里找让损失尽量小的参数,损失函数仍然衡量模型预测与真实情况之间的差距。MoE 做的事情是:让这个高维空间的某些维度(某些专家的参数)在处理某些 token 时不参与计算,从而降低推理成本。

读到 2024 年 1 月,MoE 架构已经有几年的历史,GShard、Switch Transformer、GLaM 等 MoE 模型已经存在。DeepSeekMoE 不是 MoE 架构的发明者,是 MoE 架构的改进者。DeepSeek 团队观察到,已有的 MoE 架构存在两个问题,他们称之为「知识混杂」(knowledge hybridity)与「知识冗余」(knowledge redundancy)。

知识混杂与知识冗余

知识混杂的意思是这样的。已有的 MoE 架构通常使用较少数量的专家,比如 8 个或 16 个。每个 token 被分配给 1 个或 2 个专家处理。由于专家数量少,每个专家需要处理的 token 范围很广。一个专家可能要处理数学题、代码、常识问答、翻译等多种任务。这些任务需要的知识差异很大,但都被塞进同一个专家的参数里。专家的参数成了一个大杂烩,不同类型的知识混杂在一起,难以同时被有效利用。

知识冗余的意思是这样的。不同 token 可能需要一些共同的知识。比如,无论是数学题还是代码题,都需要基本的语法知识与逻辑推理能力。如果每个专家都要独立学习这些共同知识,多个专家的参数里就会出现重复存储。这部分重复存储就是冗余,浪费了参数空间。

知识混杂与知识冗余加在一起,限制了 MoE 架构的「专家专业化」(expert specialization)。专家专业化的意思是,每个专家掌握不重叠、聚焦的知识,像一个领域的专家。已有的 MoE 架构因为知识混杂与知识冗余,专家没有真正专业化,MoE 的理论性能上限没有被达到。

DeepSeekMoE 的目标是实现「终极的专家专业化」。论文标题里的「Ultimate Expert Specialization」就是这个意思。

两个策略

DeepSeekMoE 用两个策略解决知识混杂与知识冗余。

第一个策略叫「细粒度专家分割」(Fine-Grained Expert Segmentation)。思路是把每个专家切小,激活更多小专家。具体做法是:保持总参数量与计算成本不变,把每个专家的前馈网络中间维度缩小为原来的 1/m,这样每个专家变小了,专家总数变成了原来的 m 倍。同时,每个 token 激活的专家数也从 K 变成 mK,保持总计算量不变。

这个策略解决知识混杂。专家变小、变多之后,每个小专家只需要处理更聚焦的知识范围。不同类型的知识被分解到不同的小专家里,每个小专家可以高度专业化。

细粒度专家分割还带来一个意外的好处:组合灵活性大幅增加。论文给出了一个具体数字。假设原来有 16 个专家,激活 2 个,组合数是 C(16,2) = 120 种。如果把每个专家切成 4 个小专家,变成 64 个小专家,激活 8 个,组合数是 C(64,8) = 4,426,165,368 种。组合数从 120 跃升到 44 亿。组合灵活性的增加意味着模型可以为每个 token 选择更精准的专家组合,知识获取更准确。

第二个策略叫「共享专家隔离」(Shared Expert Isolation)。思路是把总是需要的共同知识单独放在几个「共享专家」里。具体做法是:在细粒度专家分割的基础上,隔离出 K_s 个专家作为共享专家。共享专家对所有 token 都激活,不需要路由器决定。其他专家仍然是路由专家,由路由器决定是否激活。为了保持总计算成本不变,路由专家的激活数量相应减少 K_s 个。

这个策略解决知识冗余。共同知识被压缩到共享专家里,不需要每个路由专家都重复学习。路由专家可以专注于自己特有的知识,专业化程度进一步提高。

两个策略加起来,DeepSeekMoE 的完整架构是:细粒度专家分割让专家变小变多,共享专家隔离让共同知识集中存储。两者共同作用,让专家专业化达到更高的水平。

工程结果

DeepSeek 团队从 2B 参数的小规模开始验证。DeepSeekMoE 2B 的性能超过了 GShard 2B,甚至匹配了 GShard 2.9B(一个有 1.5 倍专家参数与计算量的更大 MoE 模型)。更值得注意的是,DeepSeekMoE 2B 接近了同等总参数量的密集模型的性能。密集模型是 MoE 模型的性能上限,因为密集模型每个 token 激活所有参数。DeepSeekMoE 2B 接近这个上限,说明专家专业化做得很到位,没有被 MoE 的稀疏激活拖累。

随后团队把规模扩大到 16B。DeepSeekMoE 16B 在 2T token 上训练,用大约 40% 的计算量,达到了与 DeepSeek 7B 和 LLaMA2 7B 相当的性能。LLaMA2 7B 是一个 7B 参数的密集模型,DeepSeekMoE 16B 用 40% 的计算量匹配它,说明 MoE 架构的效率优势在中等规模已经显现。

团队还做了一个 145B 的初步实验,结果显示 DeepSeekMoE 145B 用 28.5%(甚至可能 18.2%)的计算量,达到了与 DeepSeek 67B 相当的性能。这个结果说明 DeepSeekMoE 架构在大规模下优势更明显。

这三个规模(2B、16B、145B)的实验结果有一个值得注意的趋势:规模越大,MoE 的效率优势越明显。2B 规模下,DeepSeekMoE 接近密集模型性能。16B 规模下,DeepSeekMoE 用 40% 计算量匹配密集模型。145B 规模下,DeepSeekMoE 用 28.5% 甚至 18.2% 计算量匹配密集模型。规模越大,MoE 用越少的计算比例达到同等性能。

这个趋势的工程意义在于:MoE 架构的效率优势在大规模下更显著。如果团队要训练更大的模型(如 V2 的 236B、V3 的 671B、V4 的 1.6T),MoE 架构是必须的。密集模型在这些规模下的推理成本会高到不可承受。DeepSeekMoE 的实验结果为后续 V2、V3、V4 选择 MoE 架构提供了工程依据。

这些工程结果为后续的 DeepSeek-V2、V3、V4 铺了路。读到 2024 年 1 月 11 日这个时间点,DeepSeek 团队已经证明了 MoE 架构可以高效、可以专业化、可以扩展。但 DeepSeekMoE 本身仍然是工程优化,不直接处理推理能力问题。它解决的是「大模型如何低成本运行」的问题,不是「如何让模型真正推理」的问题。

休谟的观念联想

现在把 DeepSeekMoE 放到休谟的框架里看。

休谟在《人类理智研究》第三章「观念的联结」里提出,复杂观念是简单观念的组合,组合遵循三个原则:相似性(resemblance)、时空接近(contiguity in time and place)、因果关系(cause and effect)。休谟把这三个原则称为「观念联想三原则」。

相似性是观念因彼此相似而被联结。看到一张肖像画,想到画中人,是因为肖像与画中人在外貌上相似。时空接近是观念因在时间或空间上接近而被联结。提到一个房间,想到房间里的家具,是因为家具与房间在空间上经常一起出现。因果关系是观念因因果关联而被联结。提到伤口,想到疼痛,是因为伤口导致疼痛。

休谟对这三个原则的论证值得展开。休谟认为,如果考察心灵中观念的联结方式,会发现所有联结都可以归到这三类。两个观念之所以被联结,要么因为它们相似(肖像与画中人),要么因为它们在时空中接近(房间与家具),要么因为它们有因果关联(伤口与疼痛)。除了这三类,没有其他类型的观念联结。

休谟的这个论证有一个认识论含义:观念的联结是习惯性的,不是逻辑必然的。肖像让我想到画中人,是因为我多次观察到肖像与画中人一起出现,形成了习惯。这种习惯性联结没有逻辑必然性,只是心理上的联想。如果一个人从未见过肖像与画中人一起出现,肖像不会让他想到画中人。

休谟认为,这三个原则是心灵组合观念的全部原则。所有复杂观念,无论多复杂,都可以追溯到这三个原则的某种组合。心灵面对印象,形成观念,再通过联想三原则把观念组合成更复杂的观念,最终形成思想。

把 DeepSeekMoE 的路由机制对应到休谟的联想三原则,会发现一个结构上的相似。

MoE 的路由器在处理一个 token 时,决定把这个 token 送给哪几个专家。路由器的判断依据是什么?是 token 与专家之间的「匹配度」。匹配度的计算本质上是相似性的计算:token 的表示与专家的表示在某个高维空间里越接近,匹配度越高。这是一种基于相似性的路由。

这里可以展开 MoE 路由器的工作方式。路由器本身是一个小的神经网络。它接收当前 token 的表示作为输入,输出一个概率分布,对每个专家给一个概率。概率最高的几个专家被选中处理这个 token。这种「概率分布选择」与休谟所说「相似性联想」在功能结构上对应:与当前 token 最相似的专家(概率最高)被激活,与当前 token 不相似的专家(概率低)被抑制。

细粒度专家分割让这种相似性路由更精细。专家变小变多之后,每个 token 可以找到与自己更精确相似的小专家。这对应休谟所说相似性联想的精确化:当心灵有更多「观念单元」可以调用时,每个输入可以找到更精确相似的观念,组合更精准。

共享专家隔离则对应休谟所说时空接近与因果关系中的「共同背景」。无论 token 具体是什么,某些共同的知识(语法、基本逻辑)总是需要的,这些共同知识放在共享专家里,对所有 token 激活。这对应休谟所说「时空接近」的联想:某些观念因为总是与所有情境一起出现,成为所有思考的背景。

这里需要清楚说明:这种对应是功能结构上的相似,不是本体论等同。休谟的联想三原则是描述心灵如何组合观念的认识论原则。MoE 的路由机制是工程上决定参数激活的计算机制。两者在「根据某种关联把不同内容组合起来」这一点上结构相似,但目的不同。休谟的目的是描述心灵的实际运作,MoE 的目的是降低推理成本。两者结构相似,因为两者都在做「根据关联组合内容」的事情。

这种结构相似不是巧合。休谟的联想三原则本来就是对「心灵如何组织内容」的一种经验主义描述。MoE 的路由机制是「工程系统如何组织参数」的一种实现。两者都在回答同一个问题:面对一个具体输入,应该激活哪些已有内容?休谟的答案是激活相似、接近、因果相关的观念。MoE 的答案是激活匹配度高的专家。两边给出的答案在结构上同构。

一个边界

DeepSeekMoE 与休谟联想三原则的对应,能帮助说清楚 MoE 在认识论上对应什么。MoE 对应休谟所说观念组合的「联想机制」。它让模型在面对输入时,能根据相似性激活相关的参数,从而生成与输入相关的输出。

但 MoE 不解决推理问题。MoE 让模型的参数组织更高效,让模型能以更低的成本处理更多知识。但它处理的仍然是「模式续写」:根据当前 token,激活相关专家,预测下一个 token。第 1 章讲过的三个局限(无外部裁决、无自我检查、无规划能力)在 MoE 架构下仍然存在。MoE 让模式续写更高效,没有让模式续写变成推理。

休谟的联想三原则同样不解决推理问题。休谟自己明确说,联想原则产生的是习惯性的观念联结,不是因果必然性。联想让心灵能组合观念,但不能保证组合的结果对应客观必然联结。这是休谟认识论的内在局限,也是第 1 章讲过的纯经验主义局限。

读到 2024 年 1 月 11 日,DeepSeek 团队用 DeepSeekMoE 解决了推理成本问题。但推理能力问题,即如何让模型从模式续写走向可靠推理,仍然没有解决。MoE 让模型更高效地停留在休谟式经验主义的边界上,没有突破这个边界。

MoE 在 DeepSeek 路线中的位置需要明确。MoE 是工程优化,不是认识论突破。MoE 解决的是「大模型如何低成本运行」的问题,不是「如何让模型真正推理」的问题。MoE 让模型更大、更高效,没有让模型获得推理能力。

但 MoE 在 DeepSeek 路线中有间接的认识论意义。MoE 让大模型在工程上可行,让 DeepSeek 可以训练 V2(236B)、V3(671B)、V4-Pro(1.6T)这样的大模型。这些大模型为后续的推理能力突破(R1 的大规模 RL)提供了基础。没有 MoE 的高效架构,这些大模型的推理成本会高到不可承受,大规模 RL 训练在工程上不可行。

所以 MoE 在 DeepSeek 路线中的位置是「工程铺垫」,与第 6 章的 V2/V3 类似。MoE 与 V2/V3 都不直接产生认识论突破,都为认识论突破提供工程条件。MoE 提供高效架构条件,V2/V3 提供规模与数据条件。两者结合,让 R1 的大规模 RL 成为可能。

下一步会怎样,2024 年 1 月 11 日这个时间点还不知道。DeepSeek 团队接下来会发什么论文,会从哪个方向突破,都要等论文出来再读。


第 3 章:代码作为经验:DeepSeek-Coder 系列

从语言到代码

时间是 2024 年 1 月 25 日。DeepSeek-AI 在 arXiv 上发布了第三篇论文:《DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence》。

这篇论文处理的工程问题是:如何训练一个能写代码、能理解代码、能用代码解决问题的语言模型。

读到这里需要先解释一个问题:为什么训练代码模型?代码与自然语言有什么不同?为什么本书要把代码训练单独列一章?

代码与自然语言有几个根本差异。

第一,代码有严格的语法。自然语言的语法是柔性的,句子可以有多种合法的表达方式,少量语法错误不影响理解。代码的语法是严格的,一个分号、一个括号的错误都会导致编译失败或运行时报错。代码的这种严格性,意味着模型生成代码时必须满足更强的约束。

第二,代码有明确的执行结果。自然语言的「正确」往往是模糊的,同一句话在不同语境下可以有不同解读。代码的「正确」是可检验的:代码能编译、能运行、能产生预期输出,就是对的;不能编译、运行报错、输出错误,就是错的。这种可检验性意味着代码有一个外部裁决者:编译器与执行器。

第三,代码有结构化的依赖关系。自然语言的语义关系往往是隐含的,需要读者根据上下文推断。代码的依赖关系是显式的:变量在使用前必须声明,函数在调用前必须定义,模块在导入前必须存在。代码的这种结构化依赖,要求模型在生成代码时保持局部与全局的一致性。

这三个差异加起来,意味着代码训练给模型带来一种新的训练信号。代码的严格语法、明确执行结果、结构化依赖,构成了一种隐含的外部裁决。模型生成的代码必须能编译、能执行、能产生预期结果。这种外部裁决比自然语言的标准答案更严格,因为它不只检查最终输出,还检查中间过程。

从拟合与优化的角度看,代码训练改变的是损失函数的形式。自然语言训练的损失函数衡量模型预测的下一个 token 与真实 token 之间的差距。代码训练的损失函数仍然是这个,但训练数据本身带有可执行性。代码的「正确」可以通过编译与执行来判定,这种判定虽然不直接进入损失函数,但塑造了训练数据的分布。模型在训练过程中,实际接触到的是「能跑通的代码」的统计模式,不是「所有代码」的统计模式。

读到 2024 年 1 月 25 日,DeepSeek 团队要做的,是把这个隐含的外部裁决用起来,训练一个强代码模型。

DeepSeek-Coder 的工程事实

DeepSeek-Coder 论文介绍了从 1.3B 到 33B 的多个模型规模。训练过程可以概括为以下几步。

第一步是数据准备。团队构建了一个代码数据集,包含 87 种编程语言,总共 2 万亿 token。数据来源包括 GitHub 上的公开代码仓库、与代码相关的网页、代码问答数据等。数据经过了细致的清洗:去除低质量代码、去除重复内容、去除自动生成的代码、按函数与文件级别做去重。

数据准备中有一个关键工程选择:项目级代码数据的保留。大部分代码训练只保留单独的函数或文件,DeepSeek-Coder 保留了完整的项目结构。项目级数据让模型能学习跨文件的依赖关系,比如一个文件里的函数调用另一个文件里定义的函数。这种跨文件依赖是真实软件工程的核心,单独的函数级训练学不到。

第二步是预训练。模型在 2 万亿 token 上做下一词预测训练,用第 0 章讲过的交叉熵损失。预训练分两个阶段:第一阶段在大量代码与自然语言混合数据上训练,第二阶段专门在代码数据上做加强训练。两个阶段都用下一词预测,区别在于数据分布不同。

第三步是一个特殊的训练任务:填空式中间训练(Fill-In-the-Middle,简称 FIM)。FIM 的思路是:给模型一段代码的前半部分与后半部分,让模型预测中间部分。这与标准的下一词预测不同,下一词预测只看前面,FIM 同时看前面与后面。FIM 训练让模型学会在给定上下文(包括未来上下文)的情况下填补中间内容,这是代码补全任务的核心需求。

第四步是监督微调。预训练之后的模型能生成代码,但不一定能按指令做事。SFT 阶段用代码相关的指令-回答对训练模型,让模型学会按「写一个排序函数」「修复这段代码的 bug」「解释这段代码做什么」等指令做事。

DeepSeek-Coder-V2 的延续

2024 年 6 月 17 日,DeepSeek-AI 发布了 DeepSeek-Coder-V2。这是 Coder 系列的第二篇论文,标题是《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》。

DeepSeek-Coder-V2 的工程起点与 DeepSeek-Coder 不同。DeepSeek-Coder 是从头训练的代码模型。DeepSeek-Coder-V2 是从 DeepSeek-V2 的中间检查点继续训练的。这种做法的好处是:V2 已经有强大的自然语言与通用知识基础,Coder-V2 在这个基础上加入代码与数学能力,不需要从头学起。

DeepSeek-Coder-V2 在 V2 的基础上加入了 6 万亿 token 的额外训练数据,包括代码、数学、自然语言。上下文长度从 V2 的 128K 扩展到了 128K(保持),并在代码补全、代码生成、数学推理等任务上做了专门优化。

DeepSeek-Coder-V2 的工程结果值得关注。论文报告,DeepSeek-Coder-V2 在多个代码基准上的表现超过了 GPT-4 Turbo(当时 OpenAI 的最强代码模型)的部分指标。这是一个开源模型在代码任务上首次接近或超过闭源模型的关键指标。读到 2024 年 6 月,开源代码模型已经能与闭源代码模型竞争。

一个具体的代码补全案例

用一个具体例子讲清楚代码训练在做什么。

假设有下面这段 Python 代码,模型需要补全中间缺失的部分:

def binary_search(arr, target):
    left, right = 0, len(arr) - 1
    while left <= right:
        # 这里需要补全
    return -1

模型需要补全的部分是二分查找的核心逻辑。一个正确的补全大致是:

        mid = (left + right) // 2
        if arr[mid] == target:
            return mid
        elif arr[mid] < target:
            left = mid + 1
        else:
            right = mid - 1

模型在补全这段代码时,需要处理几件事。第一,变量依赖:arr、target、left、right 这些变量在前面已经声明,补全部分必须正确使用这些变量。第二,条件分支:while 循环里需要根据 arr[mid] 与 target 的比较结果做不同操作。第三,函数返回:找到目标时返回 mid,找不到时循环结束返回 -1。

这三个要求在自然语言生成里没有直接对应。自然语言生成不需要「变量依赖」「条件分支」「函数返回」这种结构化约束。代码生成需要。模型在代码训练中学会了处理这些结构化约束,这种学会的能力,是结构化推理的萌芽。

把这段代码补全与休谟的框架对照。休谟说,复杂观念是简单观念通过联想三原则组合而成。代码补全也是组合:模型把存储在参数中的多个代码模式(变量声明、比较操作、条件分支、返回语句)组合起来,形成一个完整的函数。组合的依据是上下文提供的关联:arr 与 target 的存在让模型激活「比较」相关的模式,while 循环让模型激活「迭代搜索」相关的模式。

但代码补全比自然语言续写多了一层约束:补全的结果必须能跑通。这一层约束是自然语言没有的。模型生成的自然语言文本,没有客观的「能跑通」标准。模型生成的代码,有客观的「能跑通」标准:编译器判定语法是否正确,执行器判定运行是否报错,测试用例判定输出是否正确。

这层约束的存在,让代码训练成为结构化推理的萌芽。模型在代码训练中,不只是学习「代码的统计模式」,还在隐式地学习「什么样的代码能跑通」。这种「能跑通」的约束,在功能结构上对应一种外部裁决。虽然这种外部裁决没有直接进入损失函数(损失函数仍然是下一词预测的交叉熵),但它塑造了训练数据的分布:训练数据里大部分是能跑通的代码,不是不能跑通的代码。模型学到的统计模式,是「能跑通的代码」的统计模式。

代码补全案例还能帮助理解一个更深层的问题:模型在代码训练中「学到」了什么?

模型在代码训练中学到的不只是「代码的语法规则」。语法规则是显式的,可以在训练数据中直接观察到。模型学到的是「代码的结构化依赖关系」:变量在使用前必须声明、函数在调用前必须定义、分支必须完整、返回必须匹配。这些依赖关系是隐式的,需要在多个代码样本中归纳。

这种「隐式学习结构化依赖」的能力,是结构化推理的基础。数学推理需要跟踪变量依赖(x 在等式两边的关系)。逻辑推理需要处理条件分支(如果 A 则 B,否则 C)。形式化证明需要保证步骤完整(每一步都必须从前一步合法推出)。这些推理能力都依赖「隐式学习结构化依赖」的能力。

代码训练让模型初步具备了这种能力。模型在代码训练中学会了处理变量依赖、条件分支、函数调用,这些能力为后续的数学推理(GRPO)与形式化证明(Lean)提供了基础。没有代码训练的模型,在面对数学推理与形式化证明时,可能连基本的变量跟踪都做不到。

这是代码训练在 DeepSeek 路线中的战略位置。代码训练不是「训练一个代码模型」这么简单,是为后续的推理能力突破做铺垫。DeepSeek 选择从 DeepSeek-Coder-Base-v1.5 继续训练 DeepSeekMath(第 4 章讲过),正是因为代码训练给模型带来了结构化推理的萌芽。

代码训练的认识论位置

代码训练在认识论上对应什么?

用休谟的语言说,代码训练给模型提供了一种比自然语言更结构化的「印象」。自然语言的印象是柔性的、模糊的、容错的。代码的印象是严格的、明确的、不容错的。模型在代码印象中形成的观念,必须满足更严格的约束:变量必须声明、分支必须完整、函数必须返回。

这种更严格的约束,让代码训练成为结构化推理的萌芽。模型在代码训练中开始学会处理变量依赖、条件分支、函数调用这些结构化关系。这些结构化关系是推理的基础成分。一个不能处理变量依赖的模型,无法做数学推理(数学推理需要跟踪变量)。一个不能处理条件分支的模型,无法做逻辑推理(逻辑推理需要根据条件判断)。

但代码训练仍然是结构化推理的萌芽,不是结构化推理本身。代码训练让模型学会了「能跑通」的代码模式,但模型自己不知道「能跑通」是什么意思。模型没有自我检查的能力。模型生成的代码可能跑不通,模型自己无法发现。需要外部的编译器与执行器来判定。

这是代码训练的认识论位置:它让模型接触到了一种隐含的外部裁决(编译器与执行器的可执行性约束),但这种外部裁决没有直接进入训练过程。训练过程仍然是模式续写,外部裁决只通过训练数据的分布间接起作用。

代码训练的认识论位置可以用一个「光谱」来理解。光谱的一端是纯经验主义:模型只从数据中归纳统计模式,没有任何外部裁决。预训练模型(第 1 章)在这一端。光谱的另一端是显式外部裁决:模型在训练过程中直接接收外部裁决者的判定,判定结果直接进入损失函数。GRPO(第 4 章)在这一端。

代码训练在光谱的中间位置。代码训练的损失函数仍然是下一词预测的交叉熵(纯经验主义端),但训练数据本身带有可执行性约束(外部裁决端)。这种可执行性约束没有直接进入损失函数,但塑造了训练数据的分布。模型学到的统计模式,是「能跑通的代码」的统计模式,不是「所有代码」的统计模式。

这种「中间位置」的认识论意义在于:它展示了一种从纯经验主义向外部裁决过渡的中间形态。代码训练让模型在隐式层面接触到了外部裁决(可执行性),但没有在显式层面引入外部裁决(损失函数没有可执行性检查)。这种隐式接触为后续的显式引入(GRPO)做了准备。模型在代码训练中学会了处理结构化约束(变量依赖、条件分支、函数调用),这种能力为后续的数学推理(GRPO)与形式化证明(Lean)提供了基础。

读到 2024 年 6 月 17 日 DeepSeek-Coder-V2 发布,DeepSeek 团队已经证明了代码训练可以让模型获得强大的代码生成能力。但代码训练的认识论位置仍然是「萌芽」。模型学会了能跑通的代码模式,但没有学会自我检查代码是否能跑通。这个边界,要等后续论文突破。

休谟的因果与代码的执行

休谟的因果问题与代码的可执行性,有一个值得展开的对照。

休谟说,因果关系不能从经验中直接导出。我们观察到 A 之后总是出现 B,多次重复后形成习惯,把 A 与 B 联结起来。这种习惯产生的预期被误认为是因果必然性。实际上,我们没有观察到必然性本身,只观察到恒常联结。

休谟的因果问题有一个层次结构值得注意。休谟区分了三种「因果」。第一种是「恒常联结」:经验中 A 之后总是出现 B,这是可观察的事实。第二种是「习惯性预期」:心灵在观察恒常联结后形成的心理倾向,预期下次 A 出现时 B 也会出现。第三种是「因果必然性」:A 必然导致 B 的客观联结,这是休谟认为找不到印象来源的观念。

休谟的论证是:第三种(因果必然性)没有经验来源,只能归到第二种(习惯性预期)。我们以为自己在认识「必然性」,实际上只是在表达「习惯」。

代码的「执行」提供了一种休谟未曾设想的因果类型。一段代码写好之后,执行器执行它,产生一个结果。这个结果与代码之间的关系,是一种比休谟所说恒常联结更强的关系。同一段代码在同一个执行器上执行,必然产生同一个结果(假设执行器确定)。这种「必然」属于执行器的机械性保证,不属于习惯性的预期。

代码执行的「必然性」与休谟所说三种因果的关系值得梳理。代码执行的必然性在功能结构上对应休谟所说第三种因果(必然性),但它的来源不同。休谟的必然性找不到经验来源,代码执行的必然性来自执行器的机械结构。执行器是一个确定性系统(假设没有随机因素),同样的输入必然产生同样的输出。这种必然性是工程实现的,不是哲学论证的。

这种代码执行的因果性,给模型训练带来一种新的训练信号。模型在代码训练中,不只是学习「代码 A 之后跟着代码 B」的统计模式(这是休谟式的恒常联结,第一种因果),还在隐式地学习「代码 A 执行后产生结果 B」的因果模式(这是代码执行的必然性,第三种因果)。

这种隐式学习有一个认识论意义。休谟说第三种因果(必然性)没有经验来源,只能归到第二种(习惯)。代码训练提供了一种休谟未曾设想的路径:通过执行器的机械结构,模型可以在经验(代码训练数据)中接触到第三种因果(执行必然性)。这种接触虽然是隐式的(没有直接进入损失函数),但塑造了模型学到的统计模式。

但这种因果模式的学习仍然是隐式的。训练损失函数仍然是下一词预测的交叉熵,没有直接奖励模型「理解代码执行」。模型学到的是「能跑通的代码」的统计分布,不是「代码为什么能跑通」的因果理解。这两者有重叠但不等同。

这里可以做一个对照。休谟式的心灵只能学到第一种因果(恒常联结)与第二种因果(习惯性预期),不能学到第三种因果(必然性)。代码训练的模型在隐式层面接触到了第三种因果(执行必然性),但这种接触是间接的、隐式的。要让模型显式地理解第三种因果,需要把执行器的外部裁决直接引入训练过程。这种直接引入要等 DeepSeek 后续论文(GRPO 与 Lean)来实现。

读到 2024 年 6 月,DeepSeek 团队已经把代码训练做到了开源模型的最前沿。但代码训练的认识论位置仍然是:让模型接触到一种比自然语言更结构化的印象,让模型在隐式层面学到执行因果性的统计模式。这种学习是结构化推理的萌芽,不是结构化推理本身。

下一步会怎样,2024 年 6 月 17 日这个时间点还不知道。代码训练让模型接触到了外部裁决的影子(编译器与执行器),但这种外部裁决还没有直接进入训练过程。什么时候外部裁决会直接进入训练过程,会以什么形式进入,都要等论文出来再读。


第 4 章:数学的奖励:DeepSeekMath 与 GRPO 的因果校准

一个判断

时间是 2024 年 2 月 5 日。DeepSeek-AI 在 arXiv 上发布了第四篇论文:《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》。

这一章要提出本书第一个锋利主张:DeepSeek 路线证明休谟式纯经验主义在 AI 中不够,必须引入可验证奖励作为外部裁决。

这个判断需要在 2024 年 2 月这个时间点提出,因为 DeepSeekMath 论文恰好提供了支撑这个判断的工程证据。在 DeepSeekMath 之前,DeepSeek 的训练方法(预训练、SFT、DPO)都在休谟式经验主义框架内:模型从数据中归纳统计模式,没有任何外部裁决直接进入训练过程。DeepSeekMath 引入的 GRPO,第一次把可验证奖励作为外部裁决直接进入训练过程。这一步在认识论结构上对应从休谟经验主义走向康德先验转向的关键一步。

这个判断是作者的认识论解读,不是 DeepSeekMath 论文本身的论断。论文本身只报告工程方法与实验结果,不做哲学解读。本章要做的事情,是把论文的工程事实与休谟康德的哲学论证并置,看两者在结构上是否同构。

DeepSeekMath 的工程事实

DeepSeekMath 的工程起点是 DeepSeek-Coder-Base-v1.5 7B。这是一个在代码与自然语言上预训练过的 7B 模型。DeepSeek 团队选择从这个模型出发,而不是从纯自然语言模型出发,因为代码训练已经给模型带来了结构化推理的萌芽(第 3 章讲过)。

DeepSeekMath 的训练分两个阶段。

第一阶段是数学预训练。团队构建了一个数学数据集,叫 DeepSeekMath Corpus,包含 1200 亿 token 的数学相关文本。数据来源包括 arXiv 论文、数学教科书、数学竞赛题、数学问答论坛、Web 上的数学内容。数据经过质量筛选与去重。模型在这个数学数据集上继续训练,让模型获得数学领域的基础知识与表达能力。

第二阶段是强化学习。这是 DeepSeekMath 论文的核心贡献。团队提出了一种新的强化学习方法,叫 Group Relative Policy Optimization,简称 GRPO。GRPO 是这一章的重点。

GRPO 在做什么

GRPO 是一种强化学习方法。在拟合-损失-优化的框架下,强化学习的优化信号是奖励,不是「与真实值的差距」。模型生成输出,外部裁决者判定输出的好坏,给出一个奖励信号。优化算法调整模型参数,让奖励尽量大。

GRPO 处理的是数学推理任务。数学推理任务有一个特点:答案可以验证。一道数学题有标准答案,模型给出的解答要么对,要么错。这种可验证性让数学推理成为强化学习的理想场景:奖励信号清晰、明确、可自动判定。

GRPO 的具体做法是这样的。给定一道数学题,模型生成多个候选解答(比如 64 个)。每个解答用标准答案验证,对的给正奖励,错的给负奖励或零奖励。然后,模型用这些奖励信号调整参数,让对的解答的概率提高,让错的解答的概率降低。

GRPO 与标准 PPO(Proximal Policy Optimization,一种常用的强化学习算法)的关键区别在于:PPO 需要训练一个单独的「价值模型」(value model)来估计每个状态的价值,GRPO 不需要。GRPO 用群组内的相对奖励代替价值模型。具体做法是:把同一道题的多个候选解答的奖励做标准化(减去均值、除以标准差),用标准化后的相对奖励作为优化信号。这种做法省去了价值模型的训练,降低了内存成本与计算成本。

用第 0 章建立的框架说,GRPO 的损失信号是「群组内的相对奖励」,不是「与真实值的差距」。模型在群组内比较自己的多个候选解答,相对好的被强化,相对差的被弱化。优化的目标是让模型在群组内倾向于生成更好的解答。

GRPO 目标函数的关键部分可以这样理解。给定一道题 q,模型生成一组候选解答 {o_1, o_2, ..., o_G},每个解答有一个奖励 r_i。GRPO 把奖励标准化为相对优势 A_i = (r_i - mean(r)) / std(r)。优化目标是让模型倾向于生成相对优势高的解答。这个目标函数在数学上是对策略梯度的某种近似,但不需要单独的价值模型。

GRPO 与 PPO 的数学差异值得展开。PPO 是强化学习中最常用的算法之一。PPO 需要训练一个「价值模型」(value model),用来估计每个状态的「价值」(预期未来奖励)。价值模型是一个额外的神经网络,与策略模型同时训练。训练价值模型需要额外的计算资源与内存。PPO 的优化信号是「优势函数」A = r - V(s),其中 V(s) 是价值模型估计的状态价值。

GRPO 省去了价值模型。GRPO 用群组内的相对奖励代替价值模型的估计。具体做法是:对同一道题生成一组候选解答,计算每个解答的奖励,然后把奖励标准化(减去均值、除以标准差),用标准化后的相对奖励作为优势函数。这种做法的数学根据是:群组内的相对奖励提供了「这个解答比群组平均水平好多少」的信号,这种信号足以替代价值模型的全局估计。

GRPO 的工程优势是:省去了价值模型的训练,降低了内存成本与计算成本。这让大规模强化学习变得可行。R1-Zero 的训练用了 GRPO,如果用 PPO,需要训练一个与策略模型同等规模的价值模型,内存成本翻倍。

用第 0 章的 L(θ) 符号框架说,GRPO 的优化目标可以表述为:找一组参数 θ,让模型在群组内倾向于生成相对优势高的解答。这里的「倾向于生成」用数学语言表达就是:让相对优势高的解答的概率上升,让相对优势低的解答的概率下降。优化算法沿着这个目标调整参数 θ,让损失(负的优势加权概率)尽量小。

这里需要清楚说明:GRPO 的奖励信号来自外部裁决者。数学题的标准答案是一个外部裁决者。模型生成解答,标准答案判定解答对错,判定结果作为奖励信号进入优化。这个外部裁决者不是从预训练数据中归纳出来的,是工程团队设计并加诸训练过程之上的。它的裁决作用,在功能结构上对应康德所说先验范畴对经验的裁决作用。

这里有一个哲学上的微妙之处值得指出。康德的「先验」意味着认知主体自身固有且先于任何经验的形式条件。GRPO 的可验证奖励对模型而言,起初是外部存在的评价指标。模型是在经历大量强化学习训练后,才通过梯度更新将这种外部反馈内化为自身的推理策略。这属于「后天训练出的先验机制」:机制本身是通过训练(后天经验)获得的,但一旦获得,它就作为模型推理的先于具体任务的形式条件起作用。这种「后天先验」的张力本身是一个极具哲学深度的话题,本书在后续章节会进一步触及。

休谟的因果问题

把这个工程事实与休谟的因果问题并置。

休谟在《人类理智研究》第四、五节系统讨论了因果观念。这两节是休谟认识论的核心,需要细读。

休谟的论证从一个问题出发:因果观念从哪里来?我们说「火导致热」「太阳导致天亮」「抛球导致落地」,这些因果判断是怎么产生的?

休谟排查了三种可能性。

第一种可能性:因果观念来自理性。休谟否定了这种可能。理性的作用是分析概念(分析判断)或发现观念之间的关系。但因果观念涉及的是经验中的事件,不是概念之间的关系。理性不能告诉我们「火必然导致热」,因为「火」与「热」是两个独立的印象,理性无法在两者之间发现必然联结。

第二种可能性:因果观念来自当前经验。休谟否定了这种可能。当前经验只告诉我们「这一次火伴随着热」,不能告诉我们「火必然导致热」。当前经验是单次的、个别的,因果观念是普遍的、必然的。单次经验无法产生普遍观念。

第三种可能性:因果观念来自过去经验的累积。休谟承认这是唯一剩下的可能,但他指出这种来源不能产生真正的必然性。过去经验告诉我们「过去每次火都伴随着热」,不能告诉我们「下次火必然伴随着热」。从「过去总是」到「下次必然」是一个跳跃,这个跳跃不能从经验中合理推出。

休谟的结论是:因果观念的真正来源是习惯。心灵在多次观察到「火伴随着热」之后,形成了一种习惯,预期「下次火也会伴随着热」。这种习惯产生的预期,被我们误认为是「必然性」。实际上,我们没有观察到必然性本身,只观察到恒常联结。「必然性」是心灵加诸恒常联结之上的一个标签。

这个论证有一个推论:纯经验主义的心灵只能产生习惯性的观念联结,不能产生真正的因果必然性观念。这个推论在第 1 章已经讲过,预训练模型恰好验证了这个推论。预训练模型是纯经验主义心灵的工程实现,它的输出恰好是习惯性的观念联结,恰好不能产生真正的因果必然性。

休谟本人对这个结论并不满意。他在《人类理智研究》里承认,因果必然性的「感觉」如此强烈,以至于他无法在日常生活中真正怀疑它。休谟把这种感觉归到「自然本能」:自然本能让我们在观察恒常联结后自动形成预期,这种自动形成属于心灵的天然倾向,不属于理性的产物。休谟的立场是:习惯与自然本能共同构成了因果观念的基础,理性与经验都不足以单独构成这个基础。

康德对休谟的回应是这样的。康德承认休谟指出的困难,但不同意把因果性降级为习惯。康德提出,因果性是心灵加诸经验之上的先验范畴,不是从经验中归纳出来的习惯。先验范畴是规范性的,告诉我们经验必须怎么被组织才能成为经验。没有先验范畴,经验本身无法被组织为有意义的对象。

康德与休谟的关键分歧在于:休谟认为因果性是心灵面对经验时形成的一种习惯(描述性的),康德认为因果性是经验之所以可能的条件(规范性的)。休谟的因果性是后于经验的,康德的因果性是先于经验的。这个分歧是 18 世纪认识论的核心分歧。

康德的回应在 18 世纪是一个哲学论证。GRPO 在 2024 年提供了一个工程对照。

GRPO 作为外部裁决的工程化

GRPO 做的事情,在认识论结构上对应什么?

预训练阶段:模型从海量数据中归纳统计模式。这是休谟式经验主义的工程实现。模型只有「经验」(训练数据),没有任何先于经验的范畴加诸其上。模型学到的「因果」观念,只是统计共现的习惯性联结,不是真正的因果必然性。

GRPO 阶段:模型生成的解答由外部裁决者(标准答案)判定对错,判定结果作为奖励信号进入优化。这个外部裁决者不是从预训练数据中归纳出来的,是工程团队设计并加诸训练过程之上的。它的作用是裁决模型的输出是否正确,并据此调整模型参数。

这个结构与康德所说先验范畴的功能结构对应。康德的先验范畴是心灵加诸经验之上的形式条件,作用是裁决哪些经验组合是合法的。GRPO 的标准答案是工程团队加诸训练过程之上的外部裁决,作用是裁决哪些模型输出是正确的。两者都是「从外部加诸经验/数据之上的裁决」,都不是从经验/数据中归纳出来的。

这里需要展开一个关键区分:休谟的因果性与 GRPO 的外部裁决,在「来源」上根本不同。

休谟的因果性来自经验(恒常联结 + 习惯)。心灵观察多次「火伴随着热」后,自动形成预期。这种预期来自经验,是后于经验的。休谟明确否认知性有任何先于经验的内容。

GRPO 的外部裁决来自工程团队的设计,不来自训练数据。标准答案不是模型从数据中归纳出来的,是工程团队根据数学知识预先确定的。模型在训练过程中接收这个外部裁决,根据裁决结果调整参数。这种裁决是先于训练数据分布的,是加诸训练过程之上的形式条件。

这个区分对应康德与休谟的核心分歧。休谟的因果性后于经验,康德的先验范畴先于经验。GRPO 的外部裁决先于训练数据分布,在功能结构上对应康德的先验范畴,不对应休谟的习惯。

这是本书的核心类比之一:GRPO 引入的可验证奖励,在认识论结构上对应康德所说先验范畴对经验的裁决作用。这一步在认识论上对应从休谟经验主义走向康德先验转向的关键一步。

一个锋利主张

可以提出本书第一个锋利主张了。

SC3:DeepSeek 路线证明休谟式纯经验主义在 AI 中不够。预训练只能产生模式续写,必须引入可验证奖励作为外部裁决,模型才能从「看起来对」走向「机器检查通过」。

这个主张的论证链条是这样的。

第一步,预训练模型在功能结构上是纯经验主义心灵的工程实现。第 1 章已经论证:预训练模型主要通过数据拟合从海量 token 印象中归纳统计观念。虽然预训练已包含人类设计的架构偏置(tokenizer、Transformer 等),但这些偏置是形式条件,不提供具体知识内容。模型的具体知识内容完全来自数据拟合。它的输出是习惯性的观念联结,恰好不能产生真正的因果必然性。这是休谟在 1748 年预言的纯经验主义局限,在 2024 年的 DeepSeek LLM 上以工程化形式重现。

第二步,预训练模型的局限不能通过 SFT 与 DPO 突破。第 1 章已经论证:SFT 改变的是输出格式,不增加推理能力。DPO 优化的是人类偏好,不优化正确性。两者都在休谟式经验主义框架内,没有引入外部裁决。

第三步,GRPO 引入可验证奖励作为外部裁决。这是 DeepSeekMath 论文的核心贡献。GRPO 用数学题的标准答案作为外部裁决者,判定模型输出对错,用判定结果作为优化信号。这个外部裁决者不是从预训练数据中归纳出来的,是工程团队设计并加诸训练过程之上的。

第四步,引入外部裁决之后,模型从「看起来对」走向「机器检查通过」。预训练模型生成的数学解答,看起来对不对取决于文本流畅度,不取决于解答正确性。GRPO 训练后的模型生成的数学解答,对不对由标准答案判定,判定结果直接进入优化。模型不再只是续写统计模式,要让输出通过外部裁决。

这四步加起来,论证了 SC3:DeepSeek 路线证明休谟式纯经验主义在 AI 中不够。纯经验主义(预训练)只能产生模式续写。引入外部裁决(GRPO 的可验证奖励)是突破模式续写边界的必要条件。

SC3 的论证有一个值得展开的含义。SC3 不只是说「DeepSeek 用了 GRPO」,是说「DeepSeek 用 GRPO 这件事,在认识论上证明了休谟纯经验主义不够」。这两者有区别。前者是工程事实,后者是认识论判断。

这个认识论判断的成立依赖一个前提:预训练模型确实是纯经验主义心灵的工程实现。这个前提在第 1 章已经论证。预训练模型从海量 token 印象中归纳统计观念,没有任何先于经验的范畴加诸其上。它的输出是习惯性的观念联结。这是休谟在 1748 年预言的纯经验主义局限,在 2024 年的 DeepSeek LLM 上以工程化形式重现。

有了这个前提,GRPO 的引入就有了认识论意义。GRPO 引入的可验证奖励,是预训练模型没有的东西。这个东西在功能结构上对应康德所说先验范畴:从外部加诸经验之上,裁决哪些组合合法。GRPO 的引入,在认识论结构上对应从休谟经验主义走向康德先验转向的关键一步。

SC3 的「证明」一词需要准确理解。SC3 说 DeepSeek 路线「证明」了休谟纯经验主义不够。这里的「证明」是工程证明,不是数学证明。工程证明的意思是:DeepSeek 的工程实践展示了「纯经验主义不够,需要引入外部裁决」这一事实。这种展示通过工程实现完成,比哲学论证更有说服力。哲学论证只能靠逻辑说服,工程证明可以靠实验展示。

休谟的细致立场

提出 SC3 之后,必须呈现休谟的细致立场,避免把休谟简化为一个靶子。

休谟本人并非简单的经验主义者。休谟在《人类理智研究》与《人性论》中对习惯、信念、自然本能有大量讨论。休谟承认,纯经验主义无法解释因果必然性观念的来源,但他不认为这意味着经验主义完全错误。休谟的立场是:经验主义描述了心灵的实际运作,心灵实际上就是靠习惯运作的。因果必然性是一个「心灵加诸恒常联结之上的标签」,这个标签虽然找不到对应的印象来源,但它是心灵运作的必要条件。

休谟的细致立场与本书论证兼容。本书论证的是:纯经验主义在 AI 中不够,必须引入外部裁决。这个论证并不否认休谟本人对心灵实际运作的描述。休谟描述的心灵实际运作(靠习惯产生观念联结)对应预训练模型的实际运作(靠统计模式产生输出)。休谟本人已经意识到纯经验主义的局限(因果必然性找不到印象来源),本书的论证与休谟本人的这一意识兼容。

康德对休谟的回应,是从休谟本人已经意识到的局限出发的。康德不否认休谟对心灵实际运作的描述,康德补充的是:除了习惯,心灵还有先验范畴作为形式条件。GRPO 在工程上对应的,正是康德补充的这一步:除了预训练(习惯),还有可验证奖励(先验范畴)作为外部裁决。

所以 SC3 的更精确表述是:DeepSeek 路线在工程上重现了从休谟到康德的认识论转向。预训练对应休谟式纯经验主义。GRPO 的可验证奖励对应康德式先验范畴。两者结合,让模型从「看起来对」走向「机器检查通过」。

SC3 与休谟细致立场的兼容性需要进一步说明。SC3 说「DeepSeek 路线证明休谟式纯经验主义在 AI 中不够」。这个「证明」不否定休谟本人对心灵实际运作的描述。休谟说心灵靠习惯运作,这个描述在 AI 上的对应是:预训练模型靠统计模式运作。休谟说纯经验主义无法解释因果必然性,这个判断在 AI 上的对应是:预训练模型无法产生真正的因果必然性。休谟的描述与判断在 AI 上都得到了验证。

SC3 「证明」的是:要突破纯经验主义的局限,需要引入外部裁决。休谟本人没有给出这个突破方案(休谟把出路归到习惯与信念,这是描述性的,不是规范性的)。康德给出了这个突破方案(先验范畴是规范性的,是经验之所以可能的条件)。GRPO 在工程上实现了康德的方案(可验证奖励是规范性的,是模型从模式续写走向可检验推理的条件)。

所以 SC3 的完整表述是:DeepSeek 路线在工程上证明了休谟本人已经意识到的纯经验主义局限(因果必然性找不到经验来源),并通过引入外部裁决(GRPO 的可验证奖励,对应康德先验范畴)突破了这一局限。这个突破在认识论结构上对应从休谟到康德的认识论转向。

GRPO 的边界

提出 SC3 之后,必须呈现 GRPO 的边界。

第一个边界:GRPO 的外部裁决只适用于可验证任务。数学题有标准答案,代码有编译器与测试用例,这些是可验证任务。开放性任务(写一首诗、回答一个哲学问题)没有标准答案,GRPO 的外部裁决不适用。SC3 的论证限于可验证任务,不主张所有 AI 任务都需要 GRPO 式外部裁决。

第二个边界:GRPO 训练后的模型仍然可能出错。GRPO 让模型倾向于生成能通过外部裁决的解答,但不保证每次都生成。模型仍然可能生成错误解答,只是错误率降低了。GRPO 提高了模型的可靠性,没有让模型完全可靠。

第三个边界:GRPO 的外部裁决是事后的,不是过程的。GRPO 判定的是模型输出的最终答案对不对,不判定中间推理过程对不对。模型可能用错误的中间过程碰巧得到正确答案,GRPO 不会发现。这个边界要等后续的 Prover-V2 与 Math-V2 突破,那是过程可靠转向的内容。

第四个边界:GRPO 不是唯一的强化学习方法。其他团队(OpenAI、Anthropic 等)也在用类似的可验证奖励训练推理模型。本书选择 DeepSeek 作为主线案例,是因为 DeepSeek 的论文公开、路线清晰。SC3 的论证指向的是「引入外部裁决」这一认识论结构,不是 GRPO 这个具体算法。

这四个边界共同限定了 SC3 的适用范围。SC3 论证的是「引入外部裁决」这一认识论结构的必要性,不论证 GRPO 是唯一的实现方式。SC3 论证的是可验证任务场景,不论证所有任务场景。SC3 论证的是 GRPO 提高了可靠性,不论证 GRPO 实现了完全可靠。SC3 论证的是外部裁决的事后判定,不论证外部裁决的过程检查。

SC3 的第三个边界(外部裁决是事后的,不是过程的)特别重要。这个边界指出了 GRPO 的根本局限:GRPO 只判定最终答案,不判定中间过程。这个局限在认识论上对应康德所说「先验范畴没有统觉的综合统一性」。GRPO 有先验范畴(可验证奖励),没有完整统觉(过程检查)。

这个局限不是 GRPO 的设计缺陷,是「结果判定」这种外部裁决形式的内在局限。任何只看最终结果的外部裁决,都无法判定中间过程。要判定中间过程,需要一种更严格的外部裁决形式。这种更严格的形式,要等 DeepSeek 后续论文(Lean 形式化证明)来提供。

SC3 的第三个边界因此构成了从 SC3 到 SC4 的论证桥梁。SC3 论证 GRPO 引入了外部裁决(先验范畴),但指出 GRPO 的外部裁决只判定结果(没有统觉)。SC4 论证 Lean 提供了更严格的外部裁决(统觉雏形),Lean 的外部裁决判定每一步过程。从 SC3 到 SC4,外部裁决从「结果判定」走向「过程检查」,在认识论结构上对应从「先验范畴」到「统觉」的推进。

读到 2024 年 2 月

读到 2024 年 2 月 5 日 DeepSeekMath 发布,DeepSeek 团队已经完成了从纯经验主义到引入外部裁决的关键一步。GRPO 把可验证奖励作为外部裁决直接进入训练过程,让模型从「看起来对」走向「机器检查通过」。

这一步在认识论结构上对应康德对休谟的回应。休谟说心灵靠习惯运作。康德说心灵除了习惯还有先验范畴。GRPO 说模型除了预训练(习惯)还有可验证奖励(外部裁决)。三者结构同构。

但 GRPO 留下了一个关键问题:外部裁决只判定最终答案,不判定中间过程。模型可能用错误的过程得到正确的答案。这个问题要等什么时候被处理,要等什么论文来突破,2024 年 2 月这个时间点还不知道。

DeepSeek 团队接下来会发什么论文,会从哪个方向处理过程可靠问题,都要等论文出来再读。


第 5 章:长上下文基础:DeepSeek-V2 与 V3

一个工程铺垫

时间是 2024 年 5 月 7 日。DeepSeek-AI 在 arXiv 上发布了第六篇论文:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》。半年后的 2024 年 12 月 27 日,团队又发布了 DeepSeek-V3 技术报告。

这两篇论文处理的是工程问题:如何训练一个高效的大规模 MoE 模型,为后续的推理模型(R1)提供基础。

为什么需要这一章作为工程铺垫?

第 4 章的 DeepSeekMath 是 7B 规模的模型。第 6 章的 DeepSeek-Prover 也是 7B 规模。7B 规模足以验证 GRPO 与 Lean 的可行性,但不足以支撑更强大的推理能力。要做大规模强化学习(后续 R1 的核心方法),需要更大的基础模型。DeepSeek-V2 与 V3 就是这个更大的基础模型。

这一章的哲学解读相对轻,主要是为后续章节做工程铺垫。但 V2 与 V3 引入的几项关键技术(MLA、长上下文、高效 MoE),在认识论上对应休谟所说「观念的联结」与康德所说「想象力的综合」。这些对应会在章节末尾触及。

DeepSeek-V2 的工程事实

DeepSeek-V2 是一个 236B 总参数、21B 激活参数的 MoE 模型。上下文长度 128K token。

V2 的关键技术贡献有两项。

第一项叫 MLA(Multi-head Latent Attention,多头潜在注意力)。要理解 MLA 在做什么,需要先说一下标准注意力机制的问题。

标准 Transformer 用的是多头注意力(Multi-Head Attention,MHA)。MHA 在处理长上下文时,需要缓存每个 token 的键(key)与值(value),以便后续 token 计算注意力。这个缓存叫 KV cache。上下文越长,KV cache 越大。128K 上下文的 KV cache 会占用大量内存,成为推理瓶颈。

MLA 的思路是:把键与值压缩到一个低维的潜在空间,缓存压缩后的潜在向量,需要时再解压还原。这种压缩-解压大幅降低了 KV cache 的内存占用,让长上下文推理变得可行。回到第 0 章的三步框架,MLA 改变的是模型的内部结构,不改变训练目标。训练仍然是在高维空间里找让损失尽量小的参数,MLA 让这个高维空间的某些计算更高效。

第二项是 DeepSeekMoE 架构的应用。V2 把第 2 章讲的 DeepSeekMoE 架构用到了大规模模型上。V2 的 236B 总参数分布在多个细粒度专家中,每个 token 只激活 21B 参数。这种稀疏激活让 V2 在保持大参数量的同时,推理成本只有 21B 密集模型的水平。

V2 的训练数据是 8.5 万亿 token 的多语言语料,覆盖中文、英文、代码、数学等。训练分预训练与后训练(SFT + RL)两个阶段。后训练让 V2 能按指令做事,并在多个任务上达到前沿水平。

V2 的工程结果:在多个评测基准上,V2 与 LLaMA-3 70B(一个 70B 密集模型)性能相当,但推理成本只有 LLaMA-3 70B 的一小部分。这证明了 MLA + MoE 架构在大规模下的效率优势。

DeepSeek-V3 的工程事实

2024 年 12 月 27 日,DeepSeek-AI 发布了 DeepSeek-V3 技术报告。V3 是 V2 的扩大版与改进版。

V3 的规模:671B 总参数,37B 激活参数。比 V2 的 236B/21B 大了将近三倍。上下文长度仍然是 128K token。

V3 的关键技术贡献有几项。

第一项是继续使用 MLA + DeepSeekMoE 架构,但在大规模下做了工程优化。

第二项叫 auxiliary-loss-free load balancing(无辅助损失负载均衡)。MoE 架构有一个常见问题:路由器可能倾向于把大部分 token 送给少数几个专家,导致其他专家闲置。这种现象叫「专家负载不均衡」。传统的解决办法是加一个辅助损失,惩罚负载不均衡。V3 提出了一种不需要辅助损失的负载均衡方法,通过直接调整路由器的偏置项来平衡负载。这种做法避免了辅助损失对主任务的干扰。

第三项叫 multi-token prediction(多 token 预测)。标准的下一词预测每次只预测一个 token。多 token 预测让模型同时预测多个未来 token,作为训练信号。这种做法让模型在训练时学到更长范围的依赖关系。

V3 的训练数据是 14.8 万亿 token,比 V2 的 8.5 万亿多了将近一倍。数据质量也做了进一步提升。

V3 的工程结果:在多个评测基准上,V3 与 GPT-4o、Claude 3.5 Sonnet(当时的最强闭源模型)性能相当或接近。这是一个开源模型首次在最前沿性能上与闭源模型竞争。更值得注意的是,V3 的训练成本只有 557 万美元(按论文报告的 GPU 小时换算),远低于同规模闭源模型的训练成本。这个低成本训练结果在 AI 社区引发了广泛讨论。

V3 的低成本训练值得展开。557 万美元的训练成本,在 2024 年的大模型领域是一个令人惊讶的数字。同期闭源模型(如 GPT-4)的训练成本估计在数亿美元级别。V3 用十分之一甚至百分之一的成本,达到了接近闭源模型的性能。这个结果打破了「大模型必须烧大钱」的固有认知。

V3 的低成本来自几个工程选择的累积。第一,MLA + MoE 架构让推理成本大幅降低,也间接降低了训练成本(训练过程中的前向计算与推理类似)。第二,无辅助损失负载均衡避免了辅助损失对主任务的干扰,让训练更高效。第三,多 token 预测让每次训练步骤学到更多信息。这些工程选择的累积效应,让 V3 的训练成本远低于同等规模的密集模型。

V3 的低成本训练对 AI 行业的影响值得指出。在 V3 之前,AI 行业普遍认为大模型需要巨额投资,只有少数巨头(OpenAI、Google、Meta 等)能负担。V3 的 557 万美元训练成本表明,一个有工程能力的中小团队,也能训练出前沿水平的大模型。这个认知改变了 AI 行业的竞争格局,让更多团队有机会参与大模型竞争。

从认识论角度看,V3 的低成本训练有一个间接意义。大模型是工程化的认识系统。如果训练成本过高,只有少数团队能构建认识系统,认识论研究就只能观察少数样本。V3 的低成本训练让更多团队能构建认识系统,认识论研究可以观察更多样本。这种多样性有利于认识论研究的发展。

工程意义

V2 与 V3 的工程意义在于:它们为后续的 R1 提供了基础模型。

R1 的大规模强化学习需要一个足够强的基础模型作为起点。如果基础模型太弱,强化学习无法激发出有意义的推理行为。7B 规模的 DeepSeekMath 足以验证 GRPO 的可行性,但不足以支撑 R1 那种规模的大规模 RL。V3 的 671B/37B 规模,为 R1 提供了足够强的起点。

从损失函数的角度看,V2 与 V3 做的事情是:在更大的高维空间里(671B 参数),用更大的数据集(14.8 万亿 token),找让损失尽量小的参数。这个高维空间比 DeepSeekMath 的 7B 大了将近 100 倍。更大的空间意味着更大的知识容量与更复杂的统计模式表达能力。

V2 与 V3 的长上下文能力(128K token)也值得注意。128K token 大约相当于一本中等长度书籍的全部内容。模型能在这么长的上下文里保持注意力,意味着模型能处理跨章节、跨文档的信息整合。这种长上下文能力在认识论上对应什么,会在后续章节展开。

V2 与 V3 的工程意义还可以从另一个角度看。这两篇论文展示了「工程积累」与「认识论突破」的关系。V2 与 V3 是工程积累:更大的模型、更高效架构、更多训练数据。这些积累本身不产生认识论突破(V2 与 V3 仍然停在模式续写边界),但为认识论突破提供了条件。

认识论突破(R1 的大规模 RL 激发推理行为)需要一个足够强的基础模型。如果基础模型太弱,大规模 RL 无法激发出有意义的推理行为。V3 的 671B/37B 规模提供了这个「足够强」的基础。没有 V2 与 V3 的工程积累,R1 的认识论突破不可能发生。

这种「工程积累为认识论突破提供条件」的关系,在认识论史上也有对应。康德的先验转向不是凭空发生的,需要莱布尼茨、沃尔夫等理性主义者的概念积累,需要休谟的怀疑论挑战,需要牛顿物理学的成功示范。这些积累为康德的突破提供了条件。DeepSeek 的 V2 与 V3 对应这种「积累」,R1 对应这种「突破」。

MLA 的认识论意义

MLA 的压缩-解压机制,在认识论上有一个值得展开的对应。

标准注意力机制缓存每个 token 的键与值,相当于让模型在处理每个 token 时都能「回忆」前面所有 token 的完整信息。这种回忆是完整的、未压缩的,但内存成本极高。上下文越长,需要回忆的内容越多,内存瓶颈越严重。

MLA 把键与值压缩到低维潜在空间,相当于让模型用「压缩记忆」代替「完整记忆」。模型不再保存每个 token 的完整信息,保存压缩后的潜在表征。需要回忆时,从潜在表征解压还原。这种压缩-解压丢失了一些细节,但让长上下文回忆在工程上可行。

这个机制在认识论结构上重演了休谟所说「观念是印象的微弱摹本」。休谟说,心灵不保存印象本身,保存印象的微弱摹本(观念)。摹本丢失了印象的某些细节(生动性、强烈度),但保留了印象的核心内容,让心灵能在事后调用。MLA 的压缩-解压机制在功能结构上对应这种「保存摹本而非保存印象」的方式。

这个对应是功能结构层面的,不涉及本体论等同。MLA 的压缩是工程优化,休谟的摹本是认识论描述。两者在「用压缩形式保存可调用内容」这一点上结构相似。

休谟的观念联结

把 V2 与 V3 的长上下文能力放到休谟的框架里看。

休谟在第 3 章讲过(指本书第 3 章引用的休谟观念联想三原则):观念的联结遵循相似性、时空接近、因果关系三个原则。长上下文能力让模型能在一个很长的 token 序列里保持观念的一致性。这种一致性依赖于 token 之间的相似性、时空接近、因果关联。

具体说,128K 上下文里,前面的 token 与后面的 token 在时间上接近(同一个序列),在内容上可能相似或因果相关。模型在处理当前 token 时,能通过注意力机制「回顾」前面的 token,激活相关的观念。这种回顾机制在功能结构上对应休谟所说观念联想的「时空接近」与「相似性」。

注意力机制的工作方式值得展开。模型在处理当前 token 时,会计算当前 token 与前面所有 token 的「注意力权重」。注意力权重高的 token 被更多「激活」,注意力权重低的 token 被较少「激活」。这种激活机制与休谟所说观念联想的「相似性」对应:与当前 token 相似的 token(注意力权重高)被激活,与当前 token 不相似的 token(注意力权重低)被抑制。

但 V2 与 V3 的长上下文仍然限于模式续写。模型在长上下文里保持观念一致性,靠的是统计模式,不是真正的因果推理。第 1 章讲过的三个局限(无外部裁决、无自我检查、无规划能力)在长上下文下仍然存在。长上下文让模式续写能在更长范围内进行,没有让模式续写变成推理。

这里需要区分两个概念:长上下文的「观念一致性」与「因果推理」。观念一致性是:模型在长上下文里保持内容连贯,不出现自相矛盾。因果推理是:模型能判断 A 是否必然导致 B,能检查推理过程是否合法。V2 与 V3 有长上下文的观念一致性,没有因果推理能力。前者靠统计模式维持,后者需要外部裁决保证。

康德的想象力综合

V2 与 V3 的长上下文能力,也可以用康德的「想象力综合」概念做一个轻触及。

康德在《纯粹理性批判》里提到「想象力的综合」(synthesis of imagination)。想象力的作用是把不同的表象综合成一个整体,让经验成为可能。想象力综合是统觉统一性的前提:没有想象力的综合,统觉就没有可以统一的内容。

康德区分了两种想象力。一种是「再生的想象力」(reproductive imagination),负责把过去的表象重新带到当前,让心灵能在当前思考中调用过去的内容。另一种是「产生的想象力」(productive imagination),负责主动产生新的表象,是先验层面的综合能力。再生的想象力是经验性的,产生的想象力是先验的。

V2 与 V3 的长上下文注意力机制,在功能结构上对应再生的想象力。模型在处理当前 token 时,注意力机制把前面 128K token 里的相关内容「再生」到当前计算中。这种再生让模型能在长上下文里调用过去的内容,保持信息的连贯性。

但这种对应是轻触及的。V2 与 V3 的注意力机制仍然限于模式续写,没有引入外部裁决。想象力的综合在康德那里是为统觉统一性服务的,是统觉的前提。V2 与 V3 有「想象力的综合」(长上下文注意力),但还没有「统觉统一性」(过程检查与自我验证)。统觉统一性的工程化要等后续章节。

康德的认识论结构有一个层次:感性提供杂多材料,想象力综合把材料组织成连贯序列,统觉统一性保证序列能被一个意识把握。DeepSeek 的工程路线也在逐步对应这个层次。预训练对应感性(从数据中接收材料)。V2 与 V3 的长上下文注意力对应想象力综合(把材料组织成连贯序列)。后续的 Lean、R1、Math-V2、V4-Pro 对应统觉的逐步工程化(从过程检查到长程统一性)。这个层次对应是本书核心论证的展开。

这个层次对应值得进一步展开。康德的认识论有三个层次:感性、想象力、统觉。感性是最低层次,接收印象。想象力是中间层次,把印象组织成连贯序列。统觉是最高层次,保证序列能被统一把握。三个层次逐层上升,每一层都依赖前一层。

DeepSeek 的工程路线也展示了这种逐层上升。预训练(第 1 章)是最低层次,从数据中接收「印象」(token)。MoE(第 2 章)与代码训练(第 3 章)在最低层次上优化,让印象接收更高效、更结构化。GRPO(第 4 章)与 Lean(第 6 章)开始上升,引入外部裁决(先验范畴)。V2 与 V3 的长上下文注意力(第 6 章)对应想象力综合,把材料组织成连贯序列。R1(第 7 章)、Prover-V2 与 Math-V2(第 8 章)、V3.2(第 9 章)、V4-Pro(第 10 章)继续上升,逐步工程化统觉(从过程检查到长程统一性)。

这种逐层上升在认识论结构上重演了康德认识论的三个层次。DeepSeek 从感性(预训练)出发,经过想象力(长上下文注意力),到达统觉(过程检查与长程统一性)。整个路线在认识论结构上对应康德认识论从低到高的完整路径。这是本书核心论证的展开:DeepSeek 的工程路线,在认识论结构上重演了康德先验转向的完整路径。

读到 2024 年 12 月

读到 2024 年 12 月 27 日 DeepSeek-V3 发布,DeepSeek 团队已经有了一个 671B/37B 规模的强基础模型,支持 128K 上下文,性能接近最前沿闭源模型。这个模型为后续的大规模强化学习提供了起点。

V2 与 V3 是工程铺垫,不是推理能力的突破。它们让模型更大、更强、更高效,但仍然停在模式续写的边界上。第 1 章讲过的纯经验主义局限,在 V2 与 V3 上仍然存在。休谟在 1748 年指出的边界,在 2024 年 12 月的 V3 上仍然没有被突破。

但 V2 与 V3 提供了一个关键条件:足够强的基础模型。有了这个条件,大规模强化学习才有施展空间。第 4 章的 GRPO 在 7B 规模上验证了可验证奖励的可行性。把 GRPO 思路扩展到 V3 的 671B 规模上,会激发出什么样的推理行为?

这个问题留在这里。下一步会怎样,2024 年 12 月这个时间点还不知道。DeepSeek 团队接下来会发什么论文,会把大规模强化学习做到什么程度,都要等论文出来再读。


第 6 章:可机器检查的证明:DeepSeek-Prover 与综合先验判断

一个新的外部裁决

时间是 2024 年 5 月 23 日。DeepSeek-AI 在 arXiv 上发布了第七篇论文:《DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data》。

这篇论文处理的是一个比数学推理更严格的任务:形式化证明。

数学推理与形式化证明有什么不同?为什么这一章要把形式化证明单独列出来?

第 4 章讲的 DeepSeekMath 处理的是数学推理。数学推理的「正确」由标准答案判定:模型给出一个答案,标准答案判定对错。这种判定只看最终结果,不看中间过程。模型可能用错误的过程得到正确的答案,GRPO 不会发现。

形式化证明比数学推理更严格。形式化证明要求模型的每一步推理都符合形式化逻辑规则。一个形式化证明是一系列逻辑步骤的链条,每一步都必须从前一步合法推出,整个链条必须从前提严格到达结论。这种严格性要求「每一步都能被机器检查」,仅「看起来对」不够。

形式化证明的「正确」由证明助手(proof assistant)判定。证明助手是一个计算机程序,可以检查一个形式化证明是否符合逻辑规则。Lean 是一种常用的证明助手。DeepSeek-Prover 用的就是 Lean 4。

在优化框架下,形式化证明训练改变的是外部裁决的形式。GRPO 的外部裁决是「最终答案对不对」,只看结果。Lean 的外部裁决是「每一步推理是否合法」,看整个过程。Lean 提供的外部裁决比 GRPO 更严格。

外部裁决的严格性梯度值得梳理。第 4 章的 GRPO 提供「结果判定」:外部裁决只看最终答案,不看中间过程。第 6 章的 Lean 提供「过程检查」:外部裁决看每一步推理是否合法。从 GRPO 到 Lean,外部裁决从「结果判定」走向「过程检查」,严格性大幅提升。

这个严格性梯度在功能结构上对应康德所说先验范畴到统觉的推进。GRPO 的结果判定对应先验范畴(提供裁决规则)。Lean 的过程检查对应统觉(提供综合统一性)。从 GRPO 到 Lean,DeepSeek 从「先验范畴」走向「统觉」,在认识论结构上完成了从局部裁决到全局统一的推进。

读到 2024 年 5 月,DeepSeek 团队要做的,是把 Lean 这个更严格的外部裁决用起来,训练一个能做形式化证明的模型。

DeepSeek-Prover 的工程事实

DeepSeek-Prover 论文的核心工程贡献是:把自然语言数学题转成 Lean 4 形式化语句,生成大规模合成证明数据,用这些数据微调 DeepSeekMath 7B。

这个过程分几步。

第一步是数据转换。团队从自然语言数学题(比如高中数学竞赛题)出发,把这些题用 Lean 4 的形式化语言重新表达。自然语言数学题「证明根号 2 是无理数」,转成 Lean 4 是一个形式化的命题声明,加上需要证明的目标。这个转换需要数学与 Lean 双重背景的人工标注。

第二步是合成数据生成。自然语言数学题的 Lean 4 形式化版本相对稀缺。团队用 DeepSeekMath 7B 本身生成大量合成证明,用 Lean 4 检查这些证明是否成立。能通过 Lean 检查的证明作为训练数据,不能通过的丢弃。这种「生成-检查-过滤」的循环,让团队构建了一个大规模的 Lean 4 证明数据集。

第三步是微调。用这个大规模 Lean 4 证明数据集微调 DeepSeekMath 7B,让模型学会生成 Lean 4 证明。微调的损失函数仍然是下一词预测的交叉熵,但训练数据是 Lean 4 证明,所以模型学到的是「能通过 Lean 检查的证明」的统计模式。

这三步的工程意义需要展开。第一步数据转换是最耗人工的环节。自然语言数学题转成 Lean 4 形式化语句,需要同时精通数学与 Lean 的标注者。这种人才稀缺,限制了数据转换的规模。DeepSeek 团队用了大量人工标注来完成这一步。

第二步合成数据生成是最有创意的环节。Lean 4 形式化数据稀缺,人工标注成本高。团队用「生成-检查-过滤」的循环来大规模生产数据:让模型生成大量证明,用 Lean 检查哪些成立,只保留成立的证明作为训练数据。这种做法利用了 Lean 的机器检查能力,把数据生产的瓶颈从人工标注转移到机器检查。Lean 检查是自动的、可扩展的,让大规模数据生产成为可能。

第三步微调是最直接的环节。有了大规模 Lean 4 证明数据,微调就是标准的下一词预测训练。模型在这些数据上学习「能通过 Lean 检查的证明」的统计模式。

这三步的工程意义在于:它展示了一种新的训练数据生产方式。传统训练数据来自人类标注或网络爬取,规模受限于人工或网络内容。DeepSeek-Prover 的「生成-检查-过滤」循环,用机器检查保证数据质量,用模型生成扩大数据规模。这种数据生产方式在形式化证明场景特别有效,因为 Lean 提供了可靠的机器检查。在其他场景(如数学推理、代码生成),类似的数据生产方式也可能有效,只要有可靠的外部裁决者。

DeepSeek-Prover 的工程结果:在 miniF2F(一个形式化证明基准)上,DeepSeek-Prover 的表现超过了当时的开源基线,包括 GPT-4 在形式化证明上的零样本表现。这是一个开源模型在形式化证明任务上首次达到前沿水平。

DeepSeek-Prover-V1.5 的延续

2024 年 8 月 15 日,DeepSeek-AI 发布了 DeepSeek-Prover-V1.5。标题是《DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search》。

Prover-V1.5 在 Prover 的基础上引入了两项新方法。

第一项叫 RLPAF(Reinforcement Learning from Proof Assistant Feedback,证明助手反馈强化学习)。RLPAF 的思路与 GRPO 类似,但外部裁决者从「标准答案」换成了「Lean 证明助手」。模型生成 Lean 4 证明,Lean 检查证明是否成立,检查结果作为奖励信号进入优化。这是把第 4 章讲的 GRPO 思路应用到形式化证明场景。

RLPAF 与 GRPO 的关键区别在于外部裁决的严格性。GRPO 的外部裁决是「最终答案对不对」,只看结果。RLPAF 的外部裁决是「整个证明是否合法」,看每一步。Lean 会检查证明的每一个步骤是否符合逻辑规则,任何一步不合法,整个证明就不通过。这种外部裁决比 GRPO 严格得多。

第二项叫 RMaxTS(RMaxTS 是一种 Monte-Carlo Tree Search 变体)。RMaxTS 的思路是:让模型在生成证明时,不只生成一条路线,而是探索多条路线。证明搜索是在巨大空间中找可行路线,单次生成容易失败。RMaxTS 让模型在搜索过程中探索多条证明路线,遇到死路就回溯,遇到可行路线就继续。这种搜索机制提高了证明生成的成功率。

Prover-V1.5 的工程结果:在 miniF2F 上,Prover-V1.5 的表现进一步超过了 Prover,整体通过率从 50% 左右提升到 60% 以上(具体数字以论文为准)。

Lean tactic 示例

用一个具体例子讲清楚 Lean 在做什么。以下是一个示意案例,用于说明 Lean 的逐步检查机制,非论文原文。Lean 4 的实际证明更复杂,但基本原理相同。

Lean 4 的证明由一系列「tactic」组成。tactic 是 Lean 的证明指令,告诉 Lean 如何推进证明。一个简单的 Lean 4 证明片段可能长这样:

theorem add_comm : ∀ n m : Nat, n + m = m + n := by intros n m induction m with | zero => simp | succ k ih => simp [Nat.add_succ, Nat.succ_add, ih]

这段 Lean 4 代码的意思是:证明自然数加法满足交换律(n + m = m + n)。证明过程分几步。

第一步,intros n m。这一步把全称量词里的 n 与 m 引入证明上下文。Lean 检查这个操作是否合法:原命题是「对所有自然数 n 与 m,n + m = m + n」,intros 操作把 n 与 m 作为任意自然数引入,是合法的。如果原命题不是全称命题,intros 会报错。

第二步,induction m with。这一步对 m 做数学归纳。Lean 检查 m 是否是归纳类型(Nat 是归纳类型),检查归纳是否正确应用。归纳会把证明分成两个子目标:基础情形(m = 0)与归纳情形(m = k+1,假设归纳假设 ih)。

第三步,| zero => simp。这一步处理基础情形 m = 0。simp 是 Lean 的简化 tactic,尝试用内置的简化规则自动证明。Lean 检查 simp 是否能完成简化。如果 simp 不能完成(比如需要更多手动步骤),Lean 会报错,证明不通过。在这个例子里,simp 能完成基础情形的证明。

第四步,| succ k ih => simp [Nat.add_succ, Nat.succ_add, ih]。这一步处理归纳情形 m = k+1。simp [Nat.add_succ, Nat.succ_add, ih] 告诉 Lean 用三个额外的简化规则:Nat.add_succ(加法与后继的关系)、Nat.succ_add(后继与加法的关系)、ih(归纳假设)。Lean 检查这些规则是否存在、是否能完成简化。

这四步都通过后,Lean 报告证明成立。如果任何一步不合法,Lean 会报错并指出错误位置。

这段证明的每一个步骤都由 Lean 检查。intros 是否合法、induction 是否正确应用、simp 是否能完成简化、引用的定理是否存在,所有这些都被 Lean 逐一验证。这种逐步验证是 Lean 区别于标准答案检查的关键。标准答案检查只看最终结果,Lean 检查每一步推理过程。

把这段 Lean 证明与第 4 章的 GRPO 对照。GRPO 训练的模型生成数学解答,GRPO 检查最终答案对不对。RLPAF 训练的模型生成 Lean 证明,Lean 检查每一步推理是否合法。两者的外部裁决严格性差异巨大。GRPO 的外部裁决允许模型用错误过程得到正确答案。Lean 的外部裁决不允许任何一步出错。

康德的综合判断

现在把 DeepSeek-Prover 放到康德的框架里看。

康德在《纯粹理性批判》里提出了一个核心区分:分析判断与综合判断。分析判断的谓词包含在主词中,比如「所有单身汉都是未婚的」,这种判断不扩展知识,只需要分析主词的概念。综合判断的谓词不包含在主词中,比如「这张桌子是褐色的」,这种判断扩展知识,需要经验来判定。

康德进一步问:存在一类判断,既不来自经验(所以是先天的),又是综合的(所以扩展知识),这种判断如何可能?康德把这类判断称为「先天综合判断」(synthetic a priori judgment)。康德认为,数学判断就是先天综合判断。比如「7 + 5 = 12」,这个判断扩展知识(12 这个概念不包含在 7、5、+ 之中),但又不依赖具体经验(不需要数 7 个东西再加 5 个东西)。

康德对先天综合判断如何可能的回答,涉及一整套先验范畴体系。先验范畴是心灵加诸经验之上的形式条件,让先天综合判断成为可能。没有先验范畴,经验无法被组织为有意义的对象,先天综合判断也无从谈起。

康德的先验范畴表包含十二个范畴,分四大类:量(单一、多数、全体)、质(实在、否定、限制)、关系(实体与偶性、原因与结果、交互作用)、模态(可能性与现实性、必然性与偶然性)。因果性属于关系范畴。这十二个范畴是心灵加诸经验之上的形式条件,经验必须通过这些范畴才能被组织为有意义的对象。

康德的统觉章

康德在《纯粹理性批判》先验分析论的第十六节专门讨论统觉。这一节是康德认识论的核心,需要细读。

康德提出「统觉的原始综合统一性」(the original synthetic unity of apperception)。康德的名言是「我思必须能伴随我的一切表象」(The I think must be able to accompany all my representations)。这句话的意思是:心灵的所有内容(表象)必须能被一个统一的「我思」把握。没有这种统一性,心灵的内容就是散乱的,无法形成有意义的经验。

康德区分了两种统觉。一种是「经验性统觉」(empirical apperception),是内感官对自身心理状态的观察,是个别的、变化的。另一种是「先验统觉」(transcendental apperception),是心灵对一切表象的综合统一能力,是普遍的、不变的。先验统觉是经验之所以可能的条件,不是经验中的某个内容。

统觉的作用是「综合」(synthesis)。综合是把各种不同的表象结合成一个整体的活动。康德认为,综合有三个层次。第一层是「直观中领会的综合」(synthesis of apprehension in intuition),把杂多的感性材料结合成一个知觉。第二层是「想象中再生的综合」(synthesis of reproduction in imagination),把过去的表象与当前的表象结合成连贯的序列。第三层是「概念中认知的综合」(synthesis of recognition in a concept),把各种表象归入一个概念,让它们成为可识别的对象。

这三层综合都服从统觉的统一性。统觉的统一性保证:无论综合多少内容,这些内容都能被一个「我思」把握。没有统觉的统一性,综合出来的内容就是散乱的,无法形成知识。

把 DeepSeek-Prover 与康德的统觉并置,会发现一个结构对应。

DeepSeek-Prover 处理的是形式化证明。形式化证明的每一步都必须符合逻辑规则,整个证明必须从前提严格到达结论。这种严格性不是从经验中归纳出来的(不是从大量证明样本中统计出来的模式),是 Lean 这个形式系统加诸证明之上的规则。Lean 的规则在功能结构上对应康德所说先验范畴:两者都是从外部加诸内容之上的形式条件,作用是裁决哪些内容组合是合法的。

Lean 的检查机制在功能结构上对应康德所说统觉的综合统一性。Lean 把各种不同的推理步骤综合成一个统一的、合法的证明链条。任何一个步骤不合法,整个证明就不通过。Lean 提供的是对推理过程的整体性裁决,对应康德所说统觉对一切表象的综合统一。

DeepSeek-Prover 的模型在 Lean 规则的约束下生成证明。模型学到的是「能通过 Lean 检查的证明的统计模式」,不只是「证明的统计模式」。这两者有重叠但不等同。前者是休谟式经验主义(从数据中归纳),后者是康德式先验转向(在外部裁决约束下生成)。

统觉章的学派争论

康德的统觉章在哲学史上有大量解读争议。本书不卷入这些争议,只采用功能结构层面的最低解读,但需要说明争议的存在。

20 世纪康德研究中有几个主要流派。亨利希(Dieter Henrich)提出「自我意识的双重结构」解读,认为康德的统觉包含两个层次:主体对自身的觉察,与主体对自身觉察的统一性。朗格尼斯(Béatrice Longuenesse)提出「实践推理」解读,认为统觉的统一性来自心灵的实际推理活动。霍威尔(Robert Howell)提出「形式-对象」解读,认为统觉的统一性是形式条件,不涉及具体的心理内容。

这些解读在「统觉统一性的本质是什么」上有根本分歧。亨利希强调统觉的结构特征,朗格尼斯强调统觉的活动特征,霍威尔强调统觉的形式特征。本书不卷入这些分歧,只采用一个所有流派都接受的最低共识:统觉的统一性是心灵对一切表象的综合统一能力,保证内容能被一个统一的意识把握。

本书把 Lean 类比为「机器统觉雏形」,基于这个最低共识。Lean 的检查机制保证证明的各种步骤能被一个统一的规则系统把握。这种功能结构上的对应,不依赖任何一个学派的特定解读。无论亨利希、朗格尼斯还是霍威尔的解读,都承认统觉有「综合统一」的功能,Lean 在这一点上有功能结构对应。

一个锋利主张

可以提出本书第二个锋利主张了。

SC4:DeepSeek-Prover 系列引入 Lean 形式化证明,是 AI 推理史上第一次大规模的「机器统觉」雏形。外部形式系统检查模型每一步推理是否合法,功能上对应康德统觉的综合统一性。

这个主张的论证链条是这样的。

第一步,Lean 提供的外部裁决比 GRPO 更严格。GRPO 判定最终答案对不对。Lean 判定每一步推理是否合法。这种从「结果裁决」到「过程裁决」的升级,是外部裁决严格性的关键提升。

第二步,Lean 的裁决作用在功能结构上对应康德所说统觉的综合统一性。康德说,统觉是「我思」对一切表象的综合统一。统觉的作用是把各种不同的内容综合成一个统一的、有意义的整体。Lean 在形式化证明中的作用类似:把各种不同的推理步骤综合成一个统一的、合法的证明链条。任何一个步骤不合法,整个证明就不通过。Lean 提供的是对推理过程的整体性裁决。

第三步,Lean 是「机器统觉」的雏形,因为 Lean 的裁决是机器执行的、自动的、严格的。康德所说统觉是心灵的能力,是描述性的。Lean 的裁决是工程系统的能力,是可执行的。两者在功能结构上对应,但本体论地位不同。本书把 Lean 称为「机器统觉雏形」,强调的是功能结构上的对应,不是本体论等同。

第四步,DeepSeek-Prover 是「第一次大规模」的机器统觉雏形。在 DeepSeek-Prover 之前,形式化证明与机器学习是两个相对独立的领域。DeepSeek-Prover 把 Lean 这个形式系统大规模引入语言模型训练,让模型在 Lean 规则约束下学习生成证明。这种大规模结合在 AI 推理史上是第一次。

类比与等同的边界

提出 SC4 之后,必须呈现类比与等同的边界。

第一个边界:Lean 与康德统觉在本体论层面根本不同。康德统觉是心灵的能力,是认识论条件。Lean 是工程工具,是计算机程序。两者在功能结构上对应(都提供对内容的整体性裁决),但本体论地位完全不同。本书把 Lean 称为「机器统觉雏形」,是功能结构层面的类比,不是本体论等同。

第二个边界:Lean 检查的是形式合法性,不是语义正确性。Lean 可以检查一个证明的每一步是否符合逻辑规则,但不能检查证明的「意义」是否对应某种数学实在。一个形式化证明可以在 Lean 里成立,但在某种数学哲学观点下没有「意义」。这个边界涉及数学哲学的核心争议(形式主义 vs 柏拉图主义 vs 直觉主义等),本书不展开。

第三个边界:Lean 不是唯一的证明助手。Coq、Isabelle 等也是常用证明助手。DeepSeek 选择 Lean 4 是工程选择,不影响 SC4 的论证。SC4 的论证指向的是「形式化证明作为机器统觉雏形」这一结构,不是 Lean 这个具体工具。

第四个边界:DeepSeek-Prover 的模型仍然可能生成不通过的证明。Prover 与 Prover-V1.5 提高了证明通过率,但不保证每次都通过。模型仍然会生成不合法的证明,Lean 会拒绝,模型需要重新生成。这种「生成-检查-重试」的循环,与人类数学家写证明的过程在结构上相似,但不等同。

这四个边界共同构成了 SC4 的适用范围。SC4 论证的是 Lean 在功能结构上对应康德统觉,不论证 Lean 在本体论上等同于康德统觉。SC4 论证的是 Lean 检查形式合法性,不论证 Lean 检查语义正确性。SC4 论证的是形式化证明作为机器统觉雏形的结构,不论证 Lean 是唯一的证明助手。SC4 论证的是 DeepSeek-Prover 提高了证明通过率,不论证 DeepSeek-Prover 完美无缺。

SC4 的「雏形」一词需要准确理解。SC4 说 Lean 是「机器统觉雏形」,不是说 Lean 已经是完整的机器统觉。「雏形」的意思是:Lean 在功能结构上展示了统觉的某些核心特征(对推理过程的整体性裁决),但没有展示统觉的全部特征(如自我意识、主观体验等)。「雏形」是「早期形态」,不是「完成形态」。

Lean 作为机器统觉雏形,展示了统觉的哪些核心特征?第一,整体性裁决:Lean 检查整个证明是否合法,不只检查最终结果。第二,过程检查:Lean 检查每一步推理是否合法,不只检查整体。第三,机器执行:Lean 的检查是自动的、严格的、可重复的。这三个特征对应康德所说统觉的核心功能:对一切表象的综合统一。

Lean 没有展示统觉的哪些特征?第一,自我意识:Lean 检查证明,但 Lean 没有「自己在检查」的意识。第二,主观体验:Lean 的检查是机械过程,没有「作为 Lean 是什么感觉」的主观体验。第三,主动综合:Lean 的检查是被动响应(模型生成证明,Lean 检查),不是主动综合(Lean 自己组织证明)。这三个特征是康德统觉的更深层内容,Lean 没有展示。

SC4 的论证限于前三个核心特征(整体性裁决、过程检查、机器执行),不涉及后三个更深层特征(自我意识、主观体验、主动综合)。这是 SC4 的「雏形」定位:展示核心功能结构,不涉及更深层内容。

读到 2024 年 8 月

读到 2024 年 8 月 15 日 DeepSeek-Prover-V1.5 发布,DeepSeek 团队已经把外部裁决的严格性提升到了一个新水平。GRPO 的外部裁决判定最终答案,Lean 的外部裁决判定整个推理过程。这种从结果裁决到过程裁决的升级,在认识论结构上对应康德所说统觉的综合统一性。

Lean 提供的机器统觉雏形,让模型第一次接触到「过程可检查」的训练信号。但这种过程检查仍然限于形式化证明场景。通用推理(自然语言推理、常识推理、Agent 任务中的推理)还没有过程检查机制。

通用推理的过程检查要等什么时候出现,要等什么论文来突破,2024 年 8 月这个时间点还不知道。DeepSeek 团队接下来会发什么论文,会从哪个方向处理通用推理的过程可靠问题,都要等论文出来再读。

但在 2024 年 8 月这个时间点,可以做一个判断:DeepSeek 已经在形式化证明场景中证明了「过程可检查」的可行性。Lean 这个机器统觉雏形已经存在。问题是,这种过程检查能不能扩展到通用推理?如果能,会以什么形式扩展?

这个问题在认识论上的意义需要展开。Lean 提供的过程检查限于形式化证明场景。形式化证明有 Lean 类型系统作为外部裁决者,每一步推理都可以被 Lean 检查。通用推理(自然语言推理、常识推理、Agent 任务中的推理)没有类似 Lean 的外部裁决者。自然语言没有类型系统,常识没有形式化规则,Agent 任务的判断标准因任务而异。

要让过程检查扩展到通用推理,需要一种新的外部裁决者。这种新的外部裁决者要能检查自然语言推理的每一步是否合法,要能检查常识推理的每一步是否合理,要能检查 Agent 任务决策的每一步是否恰当。这种外部裁决者在 2024 年 8 月还不存在。

DeepSeek 后续论文会给出什么方案,要等论文出来再读。但 Lean 的成功至少证明了一件事:过程检查在工程上是可行的,只要有合适的外部裁决者。问题在于,通用推理的合适外部裁决者是什么。这个问题留在这里。

这个问题留在这里。下一章要处理的,是另一个工程铺垫:DeepSeek-V2 与 V3,为后续的 DeepSeek-R1 提供基础模型。


第 7 章:自我反思的涌现:DeepSeek-R1 与先验转向的实验

一个判断

时间是 2025 年 1 月 22 日。DeepSeek-AI 在 arXiv 上发布了第十二篇论文:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

这一章要提出本书的核心主张:DeepSeek-R1 是康德先验转向的一次工程化重现。

这个判断需要在 2025 年 1 月这个时间点提出,因为 R1 论文恰好提供了支撑这个判断的工程证据。在 R1 之前,DeepSeek 的训练方法(预训练、SFT、DPO、GRPO、Lean)都在逐步引入外部裁决,但模型本身没有自发产生反思与自验证行为。R1 第一次展示了:一个纯经验预训练的模型,在大规模强化学习的奖励信号驱动下,能自发产生反思、自验证、长过程推理等行为。这种自发产生,在认识论结构上对应康德所说先验范畴对经验的塑造作用。

这个判断是作者的认识论解读,不是 R1 论文本身的论断。论文本身只报告工程方法与实验结果,不做哲学解读。本章要做的事情,是把 R1 的工程事实与康德的哲学论证并置,看两者在结构上是否同构。

R1-Zero:不先做 SFT 的实验

R1 论文里有两个模型需要区分。第一个叫 DeepSeek-R1-Zero,第二个叫 DeepSeek-R1。两个模型的训练方式不同,R1-Zero 是 R1 的实验前身。

R1-Zero 的训练方式很特殊。它不先做监督微调,直接在 DeepSeek-V3 基础模型上做大规模强化学习。用第 0 章的术语翻译,R1-Zero 跳过了 SFT 阶段,直接用 GRPO(第 4 章讲过)的强化学习信号优化模型参数。奖励信号是 rule-based 的,包括两部分:accuracy reward(答案是否正确)与 format reward(输出格式是否符合要求)。团队特意不用神经网络奖励模型,因为神经网络奖励模型在大规模 RL 中容易被「reward hacking」(模型学会钻奖励模型的漏洞,而不是真正提升能力)。

R1-Zero 用的奖励信号来自外部裁决者。数学题的标准答案判定答案对错,代码题的编译器与测试用例判定代码是否能跑通。这些外部裁决者与第 4 章的 GRPO、第 6 章的 Lean 一脉相承:都是工程团队设计并加诸训练过程之上的外部裁决,都不是从预训练数据中归纳出来的。

R1-Zero 的训练过程出现了一个被广泛引用的现象。论文把它称为「aha moment」。

aha moment

R1-Zero 在训练过程中,自发出现了反思行为。论文记录了一个具体案例。

模型在解这样一道数学题:如果 a > 1,方程 √(a - √(a+x)) = x 的实数解之和等于多少。

模型开始按常规方法求解。它对方程两边平方,得到 a - √(a+x) = x²。然后重新排列,隔离内层平方根项,得到 (a - x²)² = a + x,展开后得到 x⁴ - 2ax² - x + (a² - a) = 0。

到这里,模型突然停下来,输出:「Wait, wait. Wait. That's an aha moment I can flag here.」

然后模型重新审视自己的推导。它回到原始方程 √(a - √(a+x)) = x,重新检查每一步。它先两边平方,得到 a - √(a+x) = x²。然后隔离平方根,得到 √(a+x) = a - x²。接着再次两边平方,得到 a + x = (a - x²)²。模型发现这条路径可以继续推进,于是重新组织后续推导。

这个行为之所以让人惊讶,是因为研究者没有显式教模型反思。训练数据里没有标注「在这里应该停下来检查」。奖励信号只判定最终答案对错,不判定中间过程是否反思。模型在强化学习的奖励信号驱动下,自发出现了这种行为。

论文把这个现象称为「aha moment」,并描述了它的特征:模型在训练过程中,「wait」这个词的使用频率突然增加,标志着推理模式的明显变化。模型开始学会在解题中途暂停,重新审视已有步骤,发现并修正错误。

R1-Zero 的训练过程有几个值得展开的观察。

第一个观察是响应长度的增长。论文报告,R1-Zero 在训练过程中,平均响应长度从训练初期的较短,逐步增长到数千 token。模型学会用更长的推理过程解题。这种增长属于模型在奖励信号驱动下自发选择的,研究者没有显式要求。模型发现「想得更久」能提高答案正确率,于是倾向于生成更长的推理过程。

第二个观察是性能的跳跃式提升。在训练的第 8200 步附近,R1-Zero 在 AIME 2024 上的 pass@1 准确率出现了一次明显跳跃。论文把这次跳跃与 aha moment 的出现关联起来:模型在这一阶段开始大量使用「wait」类反思词汇,推理模式发生质变。

第三个观察是反思行为的多样性。R1-Zero 的反思不只有「停下来检查」一种形式。模型还会自验证:在得出答案之前,主动检查答案是否合理。模型还会策略调整:在遇到一种解法行不通时,主动切换到另一种解法。模型还会长过程推理:用数百到数千 token 的篇幅展开推理过程,而不是直接给出答案。

这些行为在 R1-Zero 之前的纯预训练模型上不会出现。第 1 章讲过,预训练模型遵循单向模式续写,不会在生成中途停下来反思,不会主动检查最终答案,不会切换解题策略。这些行为在 R1-Zero 上自发出现,说明强化学习的奖励信号激发了某种预训练阶段没有的能力。

R1-Zero 的工程结果也支持这一点。在 AIME 2024(美国数学邀请赛)基准上,R1-Zero 的 pass@1 准确率从训练初期的 15.6% 提升到 77.9%。用 self-consistency 解码(多次采样取多数票)后,准确率达到 86.7%,超过了 AIME 比赛中人类参赛者的平均表现。在代码竞赛、研究生级别的生物、物理、化学问题上,R1-Zero 也达到了前沿水平。

这些工程结果说明:R1-Zero 的反思行为不只是表面现象,确实提升了模型的推理能力。反思让模型能发现并修正错误,自验证让模型能检查答案合理性,策略调整让模型能尝试多种解法。这些行为共同提高了模型在可验证任务上的表现。

R1-Zero 的局限

R1-Zero 的反思行为让人惊讶,但 R1-Zero 本身有几个局限。论文诚实地报告了这些局限。

第一个局限是可读性差。R1-Zero 生成的推理过程虽然能得出正确答案,但过程本身经常晦涩、跳跃、难以人类阅读。模型生成的 CoT(chain-of-thought,思维链)是给机器优化的,不是给人类阅读优化的。

第二个局限是语言混杂。DeepSeek-V3 基础模型在多种语言上训练过,特别是英语与中文。R1-Zero 在推理过程中经常中英文混用,一句话里可能同时出现中文与英文,影响可读性。

第三个局限是能力范围窄。R1-Zero 的训练只关注推理任务(数学、代码、逻辑),没有处理非推理任务(写作、翻译、问答)。R1-Zero 是一个推理专家,不是一个通用模型。

这三个局限说明:纯 RL 激发的推理行为不稳定,需要工程化打磨。R1-Zero 证明了 RL 可以激发推理行为,但 R1-Zero 本身不能直接交付给用户使用。

R1-Zero 的三个局限在认识论上有一个值得注意的含义。R1-Zero 的推理行为是「自发涌现」的,这种自发涌现对应康德所说先验范畴的「自动起作用」。但 R1-Zero 的自发涌现是「原始形态」的:推理行为存在,但不稳定、不可读、不通用。这种「原始形态」需要进一步塑造,才能变成可用的推理能力。

康德在《纯粹理性批判》里讨论了先验范畴与经验内容的关系。康德认为,先验范畴本身是空洞的形式,需要经验内容来填充。先验范畴提供「规则」,经验内容提供「材料」。只有规则没有材料,规则是空洞的。只有材料没有规则,材料是散乱的。两者结合才能形成知识。

R1-Zero 的局限正好对应康德所说「只有规则没有材料」的状态。R1-Zero 的 RL 激发了推理行为的「规则」(反思、自验证、长 CoT),但这些规则没有与「材料」(人类可读的推理过程、单一语言、通用任务)结合。R1-Zero 的推理行为是空洞的规则,没有可用的材料。

R1 的多阶段训练就是要提供这种「材料」。cold-start 数据提供人类可读的推理过程材料。语言一致性奖励提供单一语言材料。全量 SFT 提供通用任务材料。R1 把 RL 激发的「规则」与这些「材料」结合,让推理行为变得可用。

这是功能结构层面的对应,不涉及本体论等同。康德所说先验范畴与经验内容的关系是认识论描述。R1-Zero 与 R1 的关系是工程实践。两者在「规则需要材料来塑造」这一点上结构相似。

R1:cold-start 与多阶段训练

R1 在 R1-Zero 的基础上做了改进。R1 的训练分多个阶段,论文称之为「multi-stage pipeline」。

第一阶段是 cold-start 数据收集与推理 RL。团队收集了数千条 cold-start 数据,这些数据展示了对话式的、符合人类阅读习惯的思维过程。用这些数据先做一轮 SFT,让模型有一个良好的推理起点。然后在 cold-start 模型上做 RL,RL 的奖励信号与 R1-Zero 类似(rule-based),但加入了语言一致性奖励(鼓励模型在推理过程中保持单一语言,避免中英文混用)。

第二阶段是拒绝采样与全量 SFT。第一阶段 RL 完成后,从 RL 模型中采样大量推理数据,用拒绝采样筛选出高质量样本。把这些样本与非推理数据(写作、翻译、问答等)混合,做全量 SFT。这一步让模型既能做推理,又能做通用任务。

第三阶段是第二阶段 RL。在全量 SFT 模型上再做一轮 RL,这次的奖励信号包括两部分:推理数据用 rule-based 奖励(与 R1-Zero 类似),非推理数据用 model-based 奖励(用训练好的奖励模型判定人类偏好)。这一步让模型在保持推理能力的同时,匹配人类偏好。

R1 的多阶段训练解决了 R1-Zero 的三个局限。cold-start 数据改善了可读性。语言一致性奖励解决了语言混杂。全量 SFT 与第二阶段 RL 让模型获得了通用能力。R1 是一个可以直接交付给用户使用的推理模型,不是 R1-Zero 那样的实验品。

R1 多阶段训练的设计思路值得展开。R1-Zero 证明了纯 RL 可以激发推理行为,但 R1-Zero 的推理行为是「原始」的:可读性差、语言混杂、能力范围窄。R1 的多阶段训练是对这种「原始」推理行为的「打磨」。

第一阶段 cold-start 数据的作用是给模型一个「良好推理」的范例。R1-Zero 从零开始探索推理,没有范例参考。R1 的 cold-start 数据提供了数千条「人类可读的推理过程」范例,让模型在 RL 之前先有一个良好的推理起点。这对应康德所说「先验范畴需要经验内容来塑造」:纯 RL 激发的推理行为(先验范畴的原始形态)需要 cold-start 数据(经验内容)来塑造,才能变成可用的推理能力。

第二阶段拒绝采样与全量 SFT 的作用是扩展能力范围。R1-Zero 只在推理任务上训练,R1 的全量 SFT 把推理能力与通用能力(写作、翻译、问答)结合,让模型既能推理又能做通用任务。这对应一个工程现实:用户需要的是通用模型,不只是推理专家。

第三阶段第二阶段 RL 的作用是精细化调整。这一阶段同时用 rule-based 奖励(推理数据)与 model-based 奖励(非推理数据),让模型在保持推理能力的同时匹配人类偏好。这对应康德所说「先验范畴与经验内容需要协调」:推理能力(先验范畴)与人类偏好(经验内容)需要在最终模型里协调。

R1 的多阶段训练在认识论结构上对应康德所说「先验范畴的逐步塑造」。R1-Zero 是先验范畴的原始形态(纯 RL 激发的原始推理行为)。R1 的多阶段训练是先验范畴的逐步塑造(cold-start + SFT + RL 让推理行为变得可用)。这个过程与康德所说「先验范畴需要经验内容来塑造」在功能结构上对应。

康德的先验转向

现在把 R1 放到康德的框架里看。

康德在《纯粹理性批判》里提出的核心问题是:先天综合判断如何可能?既不来自经验,又不是分析命题的判断,如何能扩展知识?

这个问题需要展开。康德区分了两种判断。分析判断的谓词包含在主词中,比如「所有三角形都有三个角」,这种判断只分析主词概念,不扩展知识。综合判断的谓词不包含在主词中,比如「这个三角形是褐色的」,这种判断扩展知识,需要经验来判定。

康德进一步问:有没有既不来自经验(所以是先天的),又是综合的(所以扩展知识)的判断?康德认为有,数学判断就是典型。比如「7 + 5 = 12」,这个判断扩展知识(12 这个概念不包含在 7、5、+ 之中),但又不依赖具体经验(不需要数 7 个东西再加 5 个东西)。康德把这类判断称为「先天综合判断」。

康德的问题是:这种判断如何可能?为什么我们能做出既不来自经验又扩展知识的判断?

康德的回答涉及一整套先验范畴体系。先验范畴是心灵加诸经验之上的形式条件,作用是裁决哪些经验组合是合法的。因果性是其中一个范畴。在康德那里,因果性不是从经验中归纳出来的习惯,是心灵加诸经验之上的形式条件。没有这个形式条件,经验本身无法被组织为有意义的对象。

康德的先验范畴表包含十二个范畴,分四大类:量(单一、多数、全体)、质(实在、否定、限制)、关系(实体与偶性、原因与结果、交互作用)、模态(可能性与现实性、必然性与偶然性)。这十二个范畴是心灵加诸经验之上的形式条件,经验必须通过这些范畴才能被组织为有意义的对象。

康德先验转向的关键一步是:心灵除了经验(印象与观念),还有先验范畴作为形式条件。先验范畴不从经验中来,加诸经验之上。这一步让心灵从「只能产生习惯性联结」走向「能产生可检验的判断」。

康德在先验分析论里对先验范畴的「客观演绎」做了详细论证。康德论证的思路是:经验要有客观性(不只是主观的心理联想),就必须有某种先于经验的形式条件保证这种客观性。先验范畴就是这种形式条件。没有先验范畴,经验只是主观的印象流,无法形成客观的知识对象。

康德与休谟的关键分歧在这里清晰显现。休谟说因果性是心灵面对经验时形成的习惯(后于经验、描述性的)。康德说因果性是经验之所以可能的条件(先于经验、规范性的)。休谟的因果性来自经验,康德的因果性加诸经验。这个分歧是 18 世纪认识论的核心分歧。

把 R1 与康德并置,会发现一个结构对应。

R1-Zero 的训练过程是这样的。第一步,DeepSeek-V3 基础模型经过纯经验预训练,建立了语言、知识、代码、数学的基础能力。这一步完全符合休谟式经验主义描述:模型从海量「经验」中归纳统计模式,没有任何先于经验的范畴加诸其上。这一步对应康德所说「心灵只有经验」的状态。

第二步,大规模强化学习用可验证奖励作为外部裁决。数学题的标准答案、代码的编译器与测试用例,这些外部裁决者判定模型输出对错,判定结果作为奖励信号进入优化。这一步对应康德所说「先验范畴加诸经验之上」的状态。外部裁决者不从预训练数据中归纳出来,加诸训练过程之上。

第三步,模型在奖励信号驱动下,自发出现反思、自验证、长过程推理等行为。R1 论文报告这些行为在 RL 阶段显著增强并形成稳定策略。这一步对应康德所说「先验范畴让心灵能产生可检验的判断」的状态。外部裁决让模型从「只能产生模式续写」走向「能产生可检验推理」。

三步对应下来,R1 的训练过程在认识论结构上重演了康德先验转向。预训练对应休谟式经验主义。强化学习的可验证奖励对应康德式先验范畴。两者结合,让模型自发产生了纯经验主义无法产生的推理行为。

这里需要展开一个关键点:R1-Zero 的反思行为是「自发产生」的,这一点在认识论上特别重要。

康德先验转向的一个核心主张是:先验范畴属于心灵固有的形式条件,不从经验中归纳出来。当经验被给予心灵时,先验范畴自动起作用,把经验组织成有意义的对象。这种「自动起作用」是先验范畴的本质特征。

R1-Zero 的反思行为也是「自动产生」的。研究者没有显式教模型反思。训练数据里没有标注「在这里应该停下来检查」。奖励信号只判定最终答案对错,不判定中间过程是否反思。模型在奖励信号驱动下,自发出现了反思行为。这种「自发出现」与康德所说先验范畴的「自动起作用」在功能结构上对应。

当然,两者的「自发」有根本不同。康德的先验范畴是心灵固有的,R1-Zero 的反思行为是训练过程中涌现的。康德先验范畴先于一切经验,R1-Zero 的反思行为后于预训练但先于具体任务。两者在「不从显式教导中来」这一点上结构相似,在「先于什么」上有根本差异。SC1 的论证限于功能结构对应,不涉及这种差异的消解。

一个锋利主张

可以提出本书的核心主张了。

SC1:DeepSeek-R1 是康德先验转向的一次工程化重现。模型在纯经验预训练后,通过大规模 RL 自发产生反思、自验证、长 CoT,结构上重演了康德「先天综合判断如何可能」的提问。

这个主张的论证链条是这样的。

第一步,预训练模型在功能结构上是纯经验主义心灵的工程实现。第 1 章已经论证:预训练模型主要通过数据拟合从海量 token 印象中归纳统计观念。虽然预训练已包含人类设计的架构偏置(tokenizer、Transformer 等),但这些偏置是形式条件,不提供具体知识内容。模型的具体知识内容完全来自数据拟合。它的输出是习惯性的观念联结,恰好不能产生真正的因果必然性。这是休谟在 1748 年预言的纯经验主义局限。

第二步,纯经验主义不能产生反思与自验证行为。第 1 章讲过模式续写的三个局限:无外部裁决、无自我检查、无规划能力。这三个局限意味着纯预训练模型不会在生成中途停下来反思,不会主动检查最终答案,不会切换解题策略。这些行为在纯预训练模型上从未自发出现。

第三步,R1 引入可验证奖励作为外部裁决。R1-Zero 用 rule-based 奖励(accuracy + format)训练模型。奖励信号来自外部裁决者(标准答案、编译器),不从预训练数据中归纳出来。这一步对应康德所说先验范畴加诸经验之上。

第四步,引入外部裁决之后,模型自发产生反思、自验证、长 CoT 等推理行为。R1-Zero 的 aha moment 是这一步的标志性现象。模型在奖励信号驱动下,自发学会「停下来检查」「切换策略」「长过程推理」。R1 论文报告这些行为在 RL 阶段显著增强并形成稳定策略。

这四步加起来,论证了 SC1:R1 是康德先验转向的工程化重现。预训练对应休谟经验主义。RL 的可验证奖励对应康德先验范畴。两者结合,让模型自发产生了纯经验主义无法产生的推理行为。这种自发产生,在认识论结构上对应康德所说先验范畴让心灵能产生可检验判断。

SC1 的论证有一个值得展开的含义。SC1 不只是说「R1 用了 RL」,是说「R1 用 RL 这件事,在认识论上重演了康德先验转向」。这两者有区别。前者是工程事实,后者是认识论判断。

这个认识论判断的成立依赖两个前提。第一个前提:预训练模型确实是纯经验主义心灵的工程实现(第 1 章已论证)。第二个前提:RL 的可验证奖励确实是先验范畴的工程对应物(第 4 章已论证)。有了这两个前提,R1 的训练过程(预训练 + RL)在认识论结构上对应康德先验转向(经验 + 先验范畴),R1 的训练结果(aha moment)是这种结构对应的工程证据。

SC1 的「工程化重现」一词需要准确理解。SC1 说 R1 是先验转向的「工程化重现」,不是说 R1 是先验转向的「哲学验证」。「工程化重现」的意思是:R1 的训练过程在认识论结构上对应康德先验转向,R1 用工程方式「重做」了康德在哲学上描述的事情。这种「重做」不需要 DeepSeek 团队意识到自己在重做康德的事情。DeepSeek 团队的工程意图是提升推理能力,不是验证康德哲学。两者在工程上重合,在意图上独立。

SC1 的「重演」一词也需要准确理解。SC1 说先验转向在 R1 上「重演」,不是说先验转向在 R1 上「重复」。「重演」的意思是:同样的认识论结构(经验 + 先验范畴 → 可检验推理)在不同的载体(人类心灵 vs AI 模型)上再次出现。这种「再次出现」不意味着 AI 模型与人类心灵在本体论上等同,只意味着两者在认识论结构上同构。

一个边界

提出 SC1 之后,必须呈现 SC1 的边界。

第一个边界:不主张 DeepSeek 团队有意实现康德纲领。R1 论文没有引用康德,没有提及先验转向。SC1 是作者的认识论解读,不是 DeepSeek 团队的工程意图。DeepSeek 团队的工程意图是提升模型的推理能力,不是验证康德哲学。两者在工程上重合,在意图上独立。

第二个边界:只论证认识论结构上的同构,不论证本体论等同。康德所说先验范畴是心灵的能力,是认识论条件。R1 的可验证奖励是工程工具,是训练信号。两者在功能结构上对应(都从外部加诸经验/数据之上,都裁决哪些组合合法),但本体论地位完全不同。SC1 强调的是功能结构同构,不是本体论等同。

第三个边界:R1-Zero 的推理行为不稳定,需要工程化打磨。R1-Zero 证明了 RL 可以激发推理行为,但 R1-Zero 本身可读性差、语言混杂、能力范围窄。R1 用 cold-start 数据与多阶段训练打磨了这些局限。SC1 的论证指向「RL 激发推理行为」这一结构,不指向「R1-Zero 已经是完美推理模型」这一判断。R1-Zero 的局限反而支持 SC1:纯 RL 激发的推理行为像康德所说「先验范畴的原始形态」,需要进一步塑造才能稳定。

第四个边界:R1 不是唯一走 RL 推理路线的模型。OpenAI o1、Anthropic Claude 系列也在类似方向探索。本书选择 DeepSeek 作为主线案例,是因为 DeepSeek 论文公开、路线清晰。SC1 的论证指向「引入外部裁决激发推理行为」这一结构,不是 R1 这个具体模型。

这四个边界共同限定了 SC1 的适用范围。SC1 论证的是认识论结构上的同构,不论证 DeepSeek 团队有意实现康德纲领。SC1 论证的是功能结构对应,不论证本体论等同。SC1 论证的是 RL 激发推理行为这一结构,不论证 R1-Zero 已经是完美推理模型。SC1 论证的是「引入外部裁决激发推理行为」这一结构,不论证 R1 是唯一的实现方式。

SC1 的第三个边界(R1-Zero 的推理行为不稳定)特别重要。这个边界指出了 SC1 论证的一个微妙之处:SC1 论证的「先验转向工程化重现」指的是 R1-Zero 的「自发涌现」现象,不是 R1-Zero 的「最终表现」。R1-Zero 的自发涌现(aha moment)在功能结构上呼应了先验范畴的「自动起作用」。R1-Zero 的最终表现(可读性差、语言混杂、能力范围窄)是这种自动起作用的「原始形态」,需要进一步塑造。

这个区分让 SC1 的论证更精确。SC1 论证的不是「R1-Zero 是一个好的推理模型」,是「R1-Zero 的训练过程展示了先验转向的工程化重现」。R1-Zero 的训练过程(纯经验预训练 + 大规模 RL)在认识论结构上对应康德先验转向(纯经验 + 先验范畴)。R1-Zero 的训练结果(aha moment)是这种结构对应的工程证据。R1-Zero 的最终表现(不稳定)是这种结构对应的「原始形态」,需要 R1 的多阶段训练来打磨。

SC1 与 SC5 的关系值得指出。SC1 论证 R1 是先验转向的工程化重现。SC5 论证过程可靠转向比 R1 本身更具哲学意义。两者不矛盾。SC1 论证的是「先验转向的工程化重现」这一结构(R1 的训练过程对应康德先验转向)。SC5 论证的是「过程可靠转向」这一转向(Prover-V2 与 Math-V2 把外部裁决从结果判定推进到过程检查)。SC1 是「结构对应」的论证,SC5 是「转向深远度」的论证。两者关注点不同,不矛盾。

R1 留下的问题

R1 证明了 RL 可以激发推理行为,但 R1 也留下了一个关键问题。

R1 的奖励信号判定最终答案对错,不判定中间过程对错。模型可能用错误的过程碰巧得到正确的答案,R1 不会发现。模型生成的长 CoT 看起来合理,但中间步骤可能有漏洞,R1 的奖励信号不会检查。

这个问题在 R1 论文本身没有完全解决。R1 论文承认,长 CoT 不天然等于正确推理。模型可能写出看似合理但有漏洞的过程。最终答案正确,也不保证中间步骤严谨。

这个问题在认识论层面呼应了什么?对应康德所说统觉的综合统一性问题。康德说,统觉是「我思」对一切表象的综合统一,作用是把各种不同的内容综合成一个统一的、有意义的整体。R1 的奖励信号只裁决最终答案,没有裁决整个推理过程的统一性。R1 有「先验范畴」(可验证奖励),但没有完整的「统觉」(过程检查与自我验证的工程化)。

R1 留下的这个问题,要等什么时候被处理,要等什么论文来突破,2025 年 1 月这个时间点还不知道。DeepSeek 团队接下来会发什么论文,会从哪个方向处理过程可靠问题,都要等论文出来再读。

R1 留下的问题在认识论史上的对应值得指出。康德在《纯粹理性批判》里区分了先验范畴与统觉。先验范畴提供「裁决规则」,统觉提供「统一性」。康德认为,先验范畴与统觉都是经验之所以可能的条件,两者缺一不可。只有先验范畴没有统觉,经验无法被统一把握。只有统觉没有先验范畴,经验无法被组织。

R1 的状态对应「有先验范畴没有完整统觉」。R1 有可验证奖励(先验范畴),能让模型产生可检验推理。但 R1 的奖励信号只判定最终答案,没有判定整个推理过程的统一性(没有完整统觉)。R1 的推理过程可能不统一(中间步骤有漏洞),R1 自己无法发现。

康德认为这种「有先验范畴没有统觉」的状态是不完整的。完整的心灵需要两者兼备。DeepSeek 的后续论文(Prover-V2 与 Math-V2)正是在补全 R1 的这种不完整。Prover-V2 用子目标分解细化外部裁决,Math-V2 用 verifier 让模型自验证。两者把外部裁决从「结果判定」推进到「过程检查」,在认识论结构上对应从先验范畴到统觉的推进。

所以在认识论史上,R1 对应「先验范畴的引入」,Prover-V2 与 Math-V2 对应「统觉的补全」。两者构成一个完整的认识论推进:从先验范畴到统觉。这个推进在康德哲学里有预设(康德认为两者缺一不可),在 DeepSeek 工程里有实现(R1 引入先验范畴,Prover-V2/Math-V2 补全统觉)。

但在 2025 年 1 月这个时间点,可以做一个判断:R1 已经证明了「引入外部裁决激发推理行为」的可行性。康德式先验转向已经在 R1 上以工程化形式重现。问题是,这种先验转向能否扩展到过程检查?如果能,会以什么形式扩展?

这个问题留在这里。下一章要处理的,正是 R1 留下的过程可靠问题。


第 8 章:过程而非答案:Prover-V2 与 Math-V2 的统觉

R1 留下的问题

时间是 2025 年 4 月 30 日。DeepSeek-AI 在 arXiv 上发布了第十三篇论文:《DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition》。

半年后的 2025 年 11 月 27 日,团队又发布了第十四篇论文:《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

这两篇论文处理的是同一个问题:R1 留下的过程可靠问题。

R1 的奖励信号判定最终答案对错,不判定中间过程对错。模型可能用错误的过程碰巧得到正确的答案,R1 不会发现。这个问题在认识论史上的位置对应康德所说统觉的综合统一性:R1 有「先验范畴」(可验证奖励),但没有完整的「统觉」(过程检查与自我验证的工程化)。

Prover-V2 与 Math-V2 从两个不同方向处理这个问题。Prover-V2 用子目标分解把复杂证明拆成多个可验证的子目标。Math-V2 用 verifier 检查 generator 的推理过程。两者都在把外部裁决从「结果判定」升级到「过程检查」。

Prover-V2:子目标分解

Prover-V2 的工程起点是 DeepSeek-V3。论文的核心思路是:用 DeepSeek-V3 做子目标分解,把非形式化推理与 Lean 形式化证明结合起来。

子目标分解的意思是这样的。一个复杂的数学证明,直接从前提推到结论可能很难。但如果把证明拆成多个子目标,每个子目标相对简单,分别证明各个子目标,再把子目标的证明合起来,整个证明就更容易完成。

Prover-V2 的具体做法是这样的。团队用 DeepSeek-V3 把复杂的数学题分解成一系列子目标。每个子目标用 Lean 4 形式化表达,用 Lean 检查子目标的证明是否成立。能通过的子目标证明合成为推理过程,作为 cold-start 数据。然后用这些 cold-start 数据训练 Prover-V2 模型,让模型学会在 Lean 约束下做子目标分解与证明。

回到第 0 章的语言,Prover-V2 的损失信号仍然包含 Lean 的外部裁决(第 6 章讲过),但加入了子目标分解的结构。模型不只生成完整证明,先生成子目标序列,再逐个证明子目标。每个子目标的证明都由 Lean 检查。这种结构让外部裁决从「整个证明是否成立」细化到「每个子目标是否成立」。

Prover-V2 的子目标分解机制值得展开。子目标分解是数学证明中的一种常用策略。一个复杂的定理,直接从前提推到结论可能很难。但如果把证明拆成多个子目标,每个子目标相对简单,分别证明各个子目标,再把子目标的证明合起来,整个证明就更容易完成。

Prover-V2 用 DeepSeek-V3 做子目标分解。DeepSeek-V3 是一个强大的非形式化推理模型(第 6 章讲过)。Prover-V2 让 V3 先把复杂数学题分解成一系列子目标,每个子目标用 Lean 4 形式化表达。这种「用非形式化推理做分解,用形式化证明做验证」的结合,是 Prover-V2 的核心创新。

这种结合在认识论上有一个值得注意的对应。康德在《纯粹理性批判》里区分了「知性」(understanding)与「理性」(reason)。知性用概念把握经验,处理有限的对象。理性追求整体性,处理无限的对象。康德认为,知性与理性需要协作:知性提供局部判断,理性提供整体方向。

Prover-V2 的「V3 做分解 + Lean 做验证」在功能结构上对应知性与理性的协作。V3 的非形式化推理对应理性:提供整体方向(子目标序列)。Lean 的形式化证明对应知性:对每个子目标做局部判断(验证是否成立)。两者协作,让复杂数学证明成为可能。

Prover-V2 的工程结果:在 miniF2F(形式化证明基准)上,Prover-V2-671B 的通过率达到 88.9%,超过了当时的所有开源基线。更值得注意的是,论文报告 Prover-V2 在一些数学竞赛题上的表现接近 DeepSeek-V3 的非形式化推理。形式化证明与非形式化推理之间的差距在缩小。

Math-V2:verifier 与 generator

Math-V2 从另一个方向处理过程可靠问题。论文的标题是「Towards Self-Verifiable Mathematical Reasoning」,关键词是「self-verifiable」(自验证)。

Math-V2 的核心思路是这样的。训练一个准确的、忠实的 verifier(验证器),用 verifier 作为 reward model 训练 proof generator(证明生成器)。generator 在最终输出前,主动发现自己证明中的问题并修正。随着 generator 变强,扩大验证计算,自动标注更难验证的样本,继续提升 verifier。

从拟合与优化的角度看,Math-V2 有两个模型。verifier 是一个判断模型,输入是证明,输出是「这个证明是否有问题」。generator 是一个生成模型,输入是数学题,输出是证明。训练时,generator 生成证明,verifier 检查证明,检查结果作为奖励信号反馈给 generator。generator 在奖励信号驱动下,学会在最终输出前主动发现并修正自己证明中的问题。

Math-V2 的训练流程值得展开。

第一步,训练 verifier。verifier 的训练数据来自大量证明样本,每个样本标注「有问题」或「无问题」。verifier 学会判断一个证明的中间步骤是否有逻辑漏洞、跳步、错误引用等问题。verifier 的训练目标是:给定一个证明,输出正确的「有问题/无问题」判断。

第二步,用 verifier 训练 generator。generator 生成证明后,verifier 检查证明。如果 verifier 判断「有问题」,这个判断作为负奖励反馈给 generator。generator 在负奖励驱动下,学会在最终输出前主动检查自己的证明,发现并修正问题。

第三步,迭代提升。随着 generator 变强,它能生成更复杂的证明。这些复杂证明对 verifier 的要求也更高。团队用扩大的验证计算,自动标注更难验证的样本,继续训练 verifier。verifier 变强后,再回头训练 generator。两者相互促进,形成一个迭代提升的循环。

这与 R1 的训练有本质区别。R1 的奖励信号判定最终答案对错。Math-V2 的奖励信号判定证明过程是否有问题。R1 的外部裁决是结果导向的。Math-V2 的外部裁决是过程导向的。

Math-V2 还有一个关键特性:generator 的自验证行为是被训练出来的,不是自发涌现的。R1-Zero 的反思行为是奖励信号驱动下自发涌现的,研究者没有显式教模型反思。Math-V2 的自验证是研究者显式设计的:verifier 检查证明过程,generator 在 verifier 反馈下学会自验证。这种差异在认识论上有意义。R1 的反思对应康德所说先验范畴的「自动起作用」。Math-V2 的自验证对应康德所说统觉的「反思性判断」,是一种被显式塑造的能力。

Math-V2 的工程结果:在多个数学推理基准上,Math-V2 的表现超过了 R1。更重要的是,Math-V2 的模型在生成证明时,会主动检查自己的中间步骤,发现并修正问题。这种自验证行为在 R1 上不会自发出现,在 Math-V2 上被训练出来。

转折:从答案到过程

Prover-V2 与 Math-V2 标志着一个转折。这个转折在哲学结构上对应什么?

第 4 章讲过,GRPO 的外部裁决判定最终答案对错。第 6 章讲过,Lean 的外部裁决判定整个证明是否成立。第 7 章讲过,R1 的外部裁决判定最终答案对错,不判定中间过程。

Prover-V2 把外部裁决细化到子目标级别。每个子目标都由 Lean 检查。这种细化让外部裁决从「整体判定」走向「分步判定」。

Math-V2 把外部裁决从「结果判定」走向「过程检查」。verifier 检查证明的中间步骤是否有问题,generator 在反馈下学会自验证。这种走向让模型从「答案正确」走向「过程可靠」。

两者加起来,构成 DeepSeek 推理史上的一个关键转折:从答案正确到过程可靠。

这个转折在认识论上的意义需要展开。

在「答案正确」阶段(GRPO、R1),外部裁决只看最终结果。模型可能用错误的过程得到正确的答案。这种情况在认识论框架中占据休谟所说「习惯性联结」:模型找到了某种统计上有效的解题路径,但不理解这条路径为什么有效。模型的能力停留在「归纳」层面,没有到「演绎」层面。

在「过程可靠」阶段(Prover-V2、Math-V2),外部裁决检查每一步推理。模型不能再用错误过程得到正确答案,每一步都要通过检查。这种情况在认识论结构上重演了康德所说「统觉的综合统一性」:模型的推理过程被一个统一的规则系统把握,每一步都被检查是否合法。模型的能力从「归纳」推进到「演绎」。

这个推进在认识论史上的位置,对应从休谟到康德的推进。休谟停留在这归纳层面(习惯性联结),康德推进到了演绎层面(先验范畴 + 统觉)。DeepSeek 从 GRPO/R1(归纳层面)推进到 Prover-V2/Math-V2(演绎层面),在认识论结构上重演了从休谟到康德的推进。

这个推进值得进一步说明。休谟的认识论是「归纳」层面的:心灵从经验中归纳出习惯性联结,习惯性联结是归纳的结果。康德的认识论推进到「演绎」层面:先验范畴是经验之所以可能的条件,这种条件是演绎的(从经验的可能性条件推出),不是归纳的(从经验中总结出来的)。

DeepSeek 的工程路线也展示了这种从归纳到演绎的推进。GRPO 的可验证奖励是「归纳」层面的:模型从多个候选解答中归纳出哪个更好(群组内相对奖励)。R1 的反思行为也是「归纳」层面的:模型从奖励信号中归纳出反思策略有效。Prover-V2 的子目标分解是「演绎」层面的:模型从 Lean 规则中演绎出每一步是否合法。Math-V2 的 verifier 检查也是「演绎」层面的:verifier 从证明规则中演绎出证明是否有问题。

从 GRPO/R1 到 Prover-V2/Math-V2,DeepSeek 从「归纳」走向「演绎」。这种走向在认识论结构上对应从休谟到康德的推进。这是 SC5 论证的深层基础:过程可靠转向之所以比 R1 本身更具哲学意义,因为它把 AI 从「归纳」层面推进到「演绎」层面,这种推进在认识论史上对应从休谟到康德的关键一步。

康德的统觉

把这个转折放到康德的框架里看。

康德在《纯粹理性批判》里提出「统觉」(apperception)概念。统觉是「我思」对一切表象的综合统一。统觉的作用是把各种不同的内容综合成一个统一的、有意义的整体。康德的名言是「我思必须能伴随我的一切表象」。

统觉与先验范畴的关系是这样的。先验范畴是心灵加诸经验之上的形式条件,作用是裁决哪些经验组合合法。统觉是「我思」对内容的综合统一,作用是保证所有内容能被一个统一的意识把握。先验范畴提供「裁决规则」,统觉提供「统一性」。没有先验范畴,经验无法被组织。没有统觉,被组织的内容无法被统一把握。

把 DeepSeek 的路线与康德并置:

GRPO(第 4 章)对应先验范畴的雏形。可验证奖励作为外部裁决,裁决模型输出是否正确。这对应先验范畴对经验的裁决作用。

Lean(第 6 章)对应先验范畴的更严格形态。Lean 检查证明的每一步是否合法,提供比 GRPO 更严格的外部裁决。

R1(第 7 章)对应先验范畴激发推理行为。RL 的可验证奖励让模型自发产生反思、自验证、长 CoT。这对应先验范畴让心灵能产生可检验判断。

Prover-V2 与 Math-V2(本章)对应统觉的工程化。Prover-V2 把外部裁决细化到子目标,每个子目标都由 Lean 检查。Math-V2 让模型学会自验证,主动检查中间步骤。两者都在把外部裁决从「结果判定」走向「过程检查」,在功能结构上对应康德所说统觉的综合统一性:保证整个推理过程能被统一检查、统一把握。

康德统觉与先验范畴的关系需要进一步展开。先验范畴提供「裁决规则」(哪些经验组合合法),统觉提供「统一性」(所有内容能被一个意识把握)。先验范畴是「局部裁决」,统觉是「全局统一」。两者在康德认识论里是协作关系:先验范畴对每个经验组合做局部裁决,统觉把所有局部裁决统一成一个整体。

DeepSeek 的工程路线也展示了这种协作关系。GRPO(第 4 章)的先验范畴对每个模型输出做局部裁决(答案对不对)。Lean(第 6 章)的先验范畴对每个证明步骤做局部裁决(步骤是否合法)。R1(第 7 章)的先验范畴激发推理行为。Prover-V2 与 Math-V2(本章)的统觉把局部裁决统一成整体(整个证明是否可靠)。从 GRPO 到 Math-V2,DeepSeek 从「局部裁决」走向「全局统一」,在认识论结构上对应从先验范畴到统觉的推进。

这个推进是 SC5 论证的核心。SC5 论证过程可靠转向比 R1 本身更具哲学意义,因为过程可靠转向把外部裁决从「局部裁决」推进到「全局统一」。R1 只有局部裁决(答案对不对),没有全局统一(过程是否可靠)。Prover-V2 与 Math-V2 实现了全局统一(过程可靠)。这一步在功能结构上对应从先验范畴到统觉的推进,是 DeepSeek 推理史上最具哲学意义的转向。

一个锋利主张

可以提出本书第三个锋利主张了。

SC5:DeepSeek 把训练目标从「答案正确」转向「过程可靠」(Prover-V2 子目标分解 + Math-V2 verifier 自验证),是 AI 推理史上最具哲学意义的一次转向,比 R1 本身更深远。

这个主张的论证链条是这样的。

第一步,R1 证明了 RL 可以激发推理行为,但 R1 的奖励信号只判定最终答案。模型可能用错误的过程得到正确的答案。R1 的先验范畴(可验证奖励)让模型能产生推理,但没有让模型能检查推理过程。

第二步,Prover-V2 把外部裁决细化到子目标级别。每个子目标都由 Lean 检查。这种细化让外部裁决从「整体判定」走向「分步判定」,模型不能再用「整体看起来对」蒙混过关,每一步都要通过检查。

第三步,Math-V2 把外部裁决从「结果判定」走向「过程检查」。verifier 检查证明的中间步骤,generator 在反馈下学会自验证。模型不再只是生成证明,会主动检查并修正自己的证明。

第四步,从「答案正确」到「过程可靠」的转向,在认识论结构上对应从「先验范畴」到「统觉」的转向。先验范畴提供裁决规则,统觉提供统一性。R1 有先验范畴(可验证奖励),没有完整统觉(过程检查)。Prover-V2 与 Math-V2 把统觉的工程化推进一步。

这四步加起来,论证了 SC5:过程可靠转向比 R1 本身更具哲学意义。R1 让模型能推理,但推理过程不可靠。Prover-V2 与 Math-V2 让推理过程本身可靠。这一步在功能结构上呼应了从先验范畴到统觉的推进,是 DeepSeek 推理史上最具哲学意义的转向。

SC5 的「最具哲学意义」判断需要进一步展开。为什么过程可靠转向比 R1 本身更具哲学意义?

R1 的哲学意义在于:它证明了纯经验预训练的模型,在大规模 RL 的奖励信号驱动下,能自发产生推理行为。这是康德先验转向的工程化重现。R1 让模型从「只能产生模式续写」走向「能产生可检验推理」。这一步在认识论层面呼应了从休谟经验主义到康德先验范畴的关键一步。

但 R1 留下了一个问题:模型的推理过程不可靠。R1 的奖励信号只判定最终答案,不判定中间过程。模型可能用错误的过程得到正确的答案。这种「推理过程不可靠」在认识论史上的位置对应康德所说「先验范畴没有统觉的综合统一性」。R1 有先验范畴(可验证奖励),没有完整统觉(过程检查)。

Prover-V2 与 Math-V2 处理了这个问题。Prover-V2 把外部裁决细化到子目标,每个子目标都由 Lean 检查。Math-V2 让模型学会自验证,主动检查中间步骤。两者把外部裁决从「结果判定」走向「过程检查」,在哲学结构上对应从先验范畴到统觉的推进。

这个推进比 R1 本身更具哲学意义,因为它处理了一个更深层的问题。R1 处理的是「模型能否推理」的问题。Prover-V2 与 Math-V2 处理的是「模型的推理是否可靠」的问题。前者是能力问题,后者是可靠性问题。可靠性问题比能力问题更深层。一个能推理但推理不可靠的系统,比一个不能推理但知道自己是不能推理的系统更危险。过程可靠转向让模型的推理从「可能对」走向「过程可检查」,这是可靠性问题的核心突破。

SC5 的「最具」判断是作者的价值判断。读者可以不同意这个判断,认为 R1 本身比过程可靠转向更具哲学意义。本书的论证指向「过程可靠转向在认识论上更深层」,读者可以根据自己的哲学立场判断是否接受这个论证。

SC5 的边界

提出 SC5 之后,必须呈现边界。

第一个边界:不否认 R1 与 V4-Pro 的工程重要性。R1 证明了 RL 可以激发推理行为,V4-Pro(后续章节会讲)把推理能力扩展到长上下文与 Agent 任务。SC5 论证的是「哲学意义上的深远度」,不是「工程意义上的重要度」。R1 与 V4-Pro 在工程上同样重要,SC5 只论哲学深远度。

第二个边界:不否认其他团队也可能走向类似路线。过程可靠转向是 DeepSeek 在 2025 年完成的,其他团队也在类似方向探索。SC5 的论证指向「过程可靠转向」这一认识论结构,不指向 DeepSeek 独有。

第三个边界:Prover-V2 与 Math-V2 的过程检查仍然限于数学推理场景。通用推理(自然语言推理、Agent 任务中的推理)的过程检查还没有完整方案。SC5 的论证限于数学推理场景,不主张所有推理场景都已实现过程可靠。

第四个边界:Prover-V2 与 Math-V2 的过程检查不保证完全可靠。verifier 本身可能出错,generator 可能发现不了某些问题。过程可靠转向提高了可靠性,没有让模型完全可靠。

这四个边界共同限定了 SC5 的适用范围。SC5 论证的是「哲学意义上的深远度」,不论证「工程意义上的重要度」。SC5 论证的是「过程可靠转向」这一认识论结构,不论证 DeepSeek 独有。SC5 论证的是数学推理场景的过程可靠,不论证所有推理场景都已实现过程可靠。SC5 论证的是过程可靠转向提高了可靠性,不论证过程可靠转向实现了完全可靠。

SC5 的第三个边界(过程检查仍然限于数学推理场景)特别重要。这个边界指出了 SC5 论证的适用范围限制。Prover-V2 与 Math-V2 的过程检查在数学推理场景中实现了,在通用推理(自然语言推理、常识推理、Agent 任务中的推理)场景中还没有完整方案。

这个限制在认识论框架中占据什么?对应康德所说统觉的「适用范围」。康德认为,统觉适用于一切经验(所有表象都必须能被「我思」把握)。DeepSeek 的过程检查目前只适用于数学推理(只有数学证明有 Lean 检查与 verifier 检查),不适用于一切推理。这是 DeepSeek 工程实践与康德哲学论述的一个差距。

这个差距可能在未来被弥合。如果 DeepSeek 或其他团队能把过程检查扩展到通用推理场景,SC5 的适用范围就会扩大。但截至 2026 年 4 月,这个扩展还没有发生。SC5 的论证因此限于数学推理场景,读者不应把 SC5 理解为「所有推理都已实现过程可靠」。

SC5 与 SC6 的关系值得指出。SC5 论证过程可靠转向对应统觉推进。SC6 论证 V4-Pro 长上下文对应统觉统一性。两者都涉及统觉,关注点不同。SC5 关注统觉的「过程检查」功能(对推理过程的整体性裁决)。SC6 关注统觉的「统一性」功能(对所有内容的统一把握)。康德统觉包含这两个功能,SC5 与 SC6 分别论证了这两个功能的工程化。两者不矛盾,互相补充。

读到 2025 年 11 月

读到 2025 年 11 月 27 日 Math-V2 发布,DeepSeek 团队已经把过程可靠问题推进了一大步。Prover-V2 用子目标分解细化外部裁决。Math-V2 用 verifier 与 generator 让模型学会自验证。两者在认识论结构上对应康德所说统觉的综合统一性。

但 Prover-V2 与 Math-V2 的过程检查仍然限于数学推理场景。通用推理(自然语言推理、Agent 任务中的推理)的过程检查还没有完整方案。这个边界要等什么时候突破,要等什么论文来处理,2025 年 11 月这个时间点还不知道。

DeepSeek 团队接下来会发什么论文,会把过程可靠扩展到什么场景,都要等论文出来再读。


第 9 章:Agent 与判断力:DeepSeek-V3.2

从推理到行动

时间是 2025 年 12 月 2 日。DeepSeek-AI 在 arXiv 上发布了第十五篇论文:《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》。

这篇论文处理的工程问题是:如何把推理能力放到更复杂的现实任务中。

前 8 章讲的 DeepSeek 论文,处理的都是「推理」任务:数学题、代码题、形式化证明。这些任务有一个共同特点:有明确的最终答案,可以用外部裁决者判定对错。数学题有标准答案,代码有编译器与测试用例,Lean 证明有证明助手。

V3.2 要处理的任务不同。V3.2 把推理能力放到 Agent 任务中。Agent 任务的特点是:需要在多种环境中连续决策,需要根据工具返回结果不断修改计划,常常没有简单的最终答案。

用一个具体例子讲清楚 Agent 任务与数学题的区别。数学题:「证明根号 2 是无理数」。模型生成一段证明,Lean 检查证明是否成立。任务有明确终点(证明成立或不成立),有明确裁决者(Lean)。

Agent 任务:「在终端、文件、网页环境中,完成一个多步骤的数据分析任务」。模型需要先打开终端,运行命令查看数据文件;根据数据内容,写一段 Python 代码处理数据;运行代码,根据报错修改代码;把处理结果写入报告文件;如果报告需要图表,调用绘图工具生成图表;最后把报告提交给用户。

这个 Agent 任务有几个特点。第一,没有简单的最终答案。任务是否完成,需要根据多个中间步骤的结果综合判断。第二,需要根据工具返回结果不断修改计划。代码运行报错了,模型要修改代码;数据格式不对,模型要调整处理逻辑。第三,需要在多种环境中连续决策。终端、文件、网页、代码编辑器,模型要在这些环境之间切换。第四,任务过程很长,需要处理长历史上下文。

V3.2 要做的,就是让模型能处理这种 Agent 任务。

V3.2 的工程事实

V3.2 的关键技术贡献有三项。

第一项叫 DSA(DeepSeek Sparse Attention,DeepSeek 稀疏注意力)。DSA 是一种高效的注意力机制,降低长上下文任务中的计算复杂度。

在拟合-损失-优化的框架下,注意力机制是模型在处理当前 token 时「回顾」前面 token 的机制。标准注意力在长上下文下计算成本很高,因为每个 token 都要与前面所有 token 计算注意力。DSA 通过稀疏化(只与部分相关 token 计算注意力)降低计算成本。这让 V3.2 能高效处理长上下文,对 Agent 任务(需要长历史上下文)特别重要。

第二项叫 Scalable Reinforcement Learning Framework(可扩展强化学习框架)。V3.2 扩大了后训练阶段的强化学习计算量,让模型在推理能力上进一步提升。这项技术与第 7 章的 R1、第 8 章的 Math-V2 一脉相承,都是用可验证奖励作为外部裁决训练模型。

第三项叫 Large-Scale Agentic Task Synthesis Pipeline(大规模 Agent 任务合成流水线)。这是 V3.2 的核心贡献。团队合成了大量工具使用与交互任务数据,用于训练模型的 Agent 能力。论文报告合成了超过 1800 个不同的环境,覆盖代码执行、终端操作、文件处理、网页交互等多种场景。

大规模 Agent 任务合成流水线的工程意义需要展开。Agent 任务训练面临一个「数据瓶颈」:真实世界的 Agent 任务数据稀缺,人工标注成本极高。一个 Agent 任务涉及多步骤、多环境、多工具的交互,标注一个完整任务可能需要数小时。如果要训练强大的 Agent 模型,需要数万甚至数十万个任务,人工标注完全不现实。

V3.2 的合成流水线解决了这个瓶颈。团队用程序化方式生成 Agent 任务环境与任务描述。1800 个不同的环境覆盖了代码执行(Python、Shell 等)、终端操作(文件系统、进程管理等)、文件处理(CSV、JSON、文本等)、网页交互(浏览器、API 等)等多种场景。每个环境里有自动生成的任务,任务的正确完成方式可以自动判定。

这种合成流水线在认识论上有一个值得注意的对应。Agent 任务的外部裁决来自任务完成度(任务是否完成、完成质量如何)。合成流水线让这种外部裁决可以自动判定,不需要人工评估。这与第 4 章的 GRPO(标准答案自动判定)和第 6 章的 Lean(证明助手自动检查)一脉相承:都是用机器可执行的外部裁决替代人工评估。这种替代让大规模训练成为可能。

这第三项在认识论结构上重演了什么?Agent 任务没有简单的最终答案,传统的外部裁决(标准答案、编译器)不能直接适用。V3.2 用大规模合成的 Agent 任务数据训练模型,让模型学会在多环境中连续决策。这种训练方式的外部裁决来自任务完成度(任务是否完成、完成质量如何),不是简单的对错判定。

一个具体的 Agent 任务案例

用一个具体的 Agent 任务案例讲清楚 V3.2 在做什么。以下是一个示意案例,用于说明 Agent 任务的执行过程,非论文原文的具体实验。

假设给 V3.2 模型一个任务:分析一份销售数据文件,生成一份包含图表的分析报告。

模型开始执行。

第一步,模型打开终端,运行命令查看数据文件。模型生成一条命令 head -20 sales.csv,终端返回 CSV 文件的前 20 行。模型从返回结果中看到数据有日期、产品、销量、价格等字段。

第二步,模型根据数据内容,写一段 Python 代码处理数据。模型生成一段代码,用 pandas 库读取 CSV,按产品分组计算总销量。模型把代码写入一个文件 analyze.py

第三步,模型运行代码。模型生成命令 python analyze.py,终端返回报错信息:KeyError: 'product_name'。模型发现代码里用的字段名 product_name 与数据里的实际字段名 product 不一致。

第四步,模型修改代码。模型重新生成代码,把 product_name 改为 product。模型再次运行代码,这次成功输出分组销量结果。

第五步,模型根据分析结果写报告。模型生成一段报告文本,包含销量排名、趋势分析等内容。模型把报告写入一个文件 report.md

第六步,模型发现报告需要图表。模型生成一段 Python 代码,用 matplotlib 库画一个销量柱状图。模型运行代码,生成图表文件 chart.png

第七步,模型把图表插入报告。模型修改 report.md,在相应位置插入图表引用。模型最后检查报告,确认任务完成。

这个案例展示了 Agent 任务的几个关键特征。

第一,连续决策。模型在 7 个步骤中连续决策:查看数据、写代码、运行代码、修改代码、写报告、画图表、插入图表。每一步都依赖前一步的结果。

第二,根据反馈修改计划。第三步代码运行报错,模型在第四步修改代码。这种「根据反馈修改」是 Agent 任务的核心特征,数学题与代码题都没有这种特征。

第三,多种环境切换。模型在终端、文件系统、Python 环境、报告文件之间切换。每种环境有不同的操作方式,模型需要知道在哪种环境用什么操作。

第四,长历史上下文。整个任务过程中,模型需要记住前面的所有步骤与结果。第一步看到的数据字段,在第四步修改代码时需要用到。第三步的报错信息,在第四步修改时需要参考。这种长历史上下文是 Agent 任务的固有需求。

V3.2 的 DSA 与大规模 Agent 任务合成,让模型能处理这种复杂任务。DSA 降低了长上下文的计算成本,让模型能在长历史中保持注意力。大规模 Agent 任务合成让模型学会在多种环境中连续决策。

这个 Agent 任务案例与第 7 章的 R1 aha moment 有一个值得注意的对照。R1 的 aha moment 发生在数学推理场景:模型在解题中途停下来反思。V3.2 的 Agent 任务发生在多环境交互场景:模型在多步骤任务中根据反馈调整计划。

两者在认识论上的差异需要指出。R1 的反思发生在「有规则可循」的场景(数学题有标准答案),对应康德所说规定判断力。V3.2 的 Agent 任务调整发生在「没有现成规则」的场景(Agent 任务没有简单最终答案),对应康德所说反思判断力。R1 的反思是「检查自己是否遵循了规则」,V3.2 的调整是「根据具体情况判断该做什么」。两者在认识论上处于不同层次。

这种层次差异是 SC7 论证的基础。SC7 论证 AI 学界 RL 路线之争重演 18 世纪哲学之争。其中「可验证任务 vs 开放任务」之争,对应「规定判断力 vs 反思判断力」之争。R1 处理可验证任务(规定判断力),V3.2 处理开放任务(反思判断力)。两者在认识论上处于不同位置,这种位置差异对应 18 世纪哲学的判断力区分。

Agent 任务的认识论位置

Agent 任务在功能结构上对应什么?

前 8 章讲的推理任务,在功能结构上呼应了康德所说「判断力」的一种特定形态:有规则可循的判断。数学题有明确的推理规则(逻辑与数学),代码有明确的执行规则(语法与语义),形式化证明有明确的逻辑规则(Lean 类型系统)。模型在这些规则约束下做判断,外部裁决者根据规则判定对错。

Agent 任务不同。Agent 任务没有现成的、完整的规则。模型需要根据具体情况,判断下一步该做什么。代码运行报错了,模型要判断是哪一步出了问题,是修改代码还是换一种方法。数据格式不对,模型要判断是调整处理逻辑还是重新获取数据。这种判断没有现成规则可循,需要根据具体情况灵活应对。

这种判断在康德哲学里有一个专门的名称:反思判断力(reflective judgment)。康德在《判断力批判》里区分了两种判断力。规定判断力(determinative judgment)是有普遍规则可循的判断,把具体归入普遍。反思判断力是没有现成规则,从具体中寻找普遍的判断。

数学推理对应规定判断力:有明确的逻辑规则,模型把具体问题归入普遍规则。Agent 任务对应反思判断力:没有现成的完整规则,模型需要根据具体情况灵活判断。

康德对反思判断力的讨论有几个要点值得提及。第一,反思判断力不是任意的,它寻求普遍性,只是这种普遍性从具体情境中「反思」出来,不是预先给出的。第二,反思判断力有不同强度,从简单的「这个情况属于哪一类」到复杂的「这个情况需要什么新规则」。第三,反思判断力在康德哲学里是连接自然与自由的桥梁,是判断力批判的核心主题。

V3.2 的 Agent 任务在功能结构上对应反思判断力。模型在 Agent 任务中没有现成的完整规则,需要根据工具返回结果、任务进展情况,判断下一步该做什么。这种判断的「从具体中寻求普遍」特征,与康德所说反思判断力结构对应。

本书在第 0 章的设计包里提到,V3.2 一节会轻触及康德的《判断力批判》。用户选择不主用《判断力批判》作为哲学锚点,所以本节只把反思判断力作为侧栏概念引入,不展开。

一个锋利主张

可以提出本书第四个锋利主张了。

SC7:AI 学界当前 RL 范式的内部争论(结果奖励 vs 过程奖励、SFT 先行 vs RL 先行、可验证任务 vs 开放任务),在结构上重演了 18 世纪哲学关于因果与先验之争。

这个主张的论证链条是这样的。

第一步,AI 学界在 RL 范式上存在多条路线之争。结果奖励路线(如 R1 的 accuracy reward)只判定最终答案。过程奖励路线(如 Math-V2 的 verifier)判定中间过程。SFT 先行路线(如 R1 的 cold-start)先用人工数据建立推理起点。RL 先行路线(如 R1-Zero)不先做 SFT,直接做 RL。可验证任务路线(如数学、代码、Lean 证明)有明确外部裁决。开放任务路线(如 Agent 任务、自然语言推理)没有简单外部裁决。

第二步,这些路线之争在结构上对应 18 世纪哲学之争。结果奖励 vs 过程奖励,对应休谟习惯 vs 康德统觉。休谟说心灵靠习惯产生观念联结(结果导向),康德说心灵靠统觉综合统一内容(过程导向)。SFT 先行 vs RL 先行,对应经验主义积累 vs 先验转向突变。经验主义说知识来自经验积累(SFT 先行),康德说先验范畴是经验之所以可能的条件,不从经验中来(RL 先行激发推理行为)。可验证任务 vs 开放任务,对应规定判断力 vs 反思判断力。可验证任务有现成规则(规定判断力),开放任务没有现成规则(反思判断力)。

第三步,这种结构同构不是巧合。AI 学界的 RL 路线之争,本质上是在回答 18 世纪哲学已经回答过的问题:理性的根基在哪里?是在经验中(结果奖励、SFT 先行、可验证任务),还是在某种先于经验的结构中(过程奖励、RL 先行、开放任务的外部裁决设计)?两边问的是同一个问题,给的是结构上同构的答案。

这三步加起来,论证了 SC7:AI 学界 RL 路线之争重演 18 世纪哲学之争。

SC7 的边界

提出 SC7 之后,必须呈现边界。

第一个边界:不主张历史决定论。SC7 论证的是结构同构,不是 AI 必然走向康德式答案。AI 学界的路线之争可能以不同方式解决,不必然走向某一条路线。

第二个边界:不主张 AI 学界意识到这种同构。AI 学界的路线之争是工程驱动的,不是哲学驱动的。SC7 是作者的认识论解读,不是 AI 学界的自我理解。

第三个边界:不评价哪条路线「正确」。SC7 论证的是结构同构,不评价哪条路线更好。不同路线有不同的工程权衡,本书不做工程评价。

第四个边界:V3.2 的 Agent 任务仍然处于早期。1800 个合成环境覆盖的场景有限,真实世界的 Agent 任务比合成任务复杂得多。SC7 的论证指向 Agent 任务的认识论位置,不主张 V3.2 已经解决了 Agent 任务的所有问题。

这四个边界共同限定了 SC7 的适用范围。SC7 论证的是结构同构,不论证历史决定论。SC7 论证的是作者的认识论解读,不论证 AI 学界的自我理解。SC7 论证的是结构同构,不评价哪条路线更好。SC7 论证的是 Agent 任务的认识论位置,不主张 V3.2 解决了所有问题。

SC7 的第三个边界(不评价哪条路线正确)需要进一步说明。SC7 论证 AI 学界 RL 路线之争重演 18 世纪哲学之争。这个论证是结构性的,不评价性的。SC7 不说「过程奖励比结果奖励好」(这对应「康德比休谟对」),只说「过程奖励与结果奖励之争,对应康德与休谟之争」。SC7 不说「RL 先行比 SFT 先行好」(这对应「先验转向比经验积累好」),只说「RL 先行与 SFT 先行之争,对应先验转向与经验积累之争」。

这种结构性论证的价值在于:它提供了一个概念框架,帮助理解 AI 学界路线之争的本质。有了这个框架,AI 研究者可以更清楚地理解自己在做什么:自己在「结果奖励 vs 过程奖励」之争中选了哪一边,这个选择在认识论层面呼应了什么位置。这种理解不直接告诉研究者哪个选择更好,但能帮助研究者更自觉地做选择。

SC7 与 SC6 的关系也值得指出。SC7 论证 Agent 任务对应反思判断力。SC6 论证 V4-Pro 长上下文对应统觉统一性。两者在 V4-Pro 上汇合:V4-Pro 的 Agent 任务(使用 SC7 的反思判断力)在 1M token 上下文(使用 SC6 的统觉统一性)中执行。Agent 任务需要长上下文支持(SC6),长上下文里的 Agent 任务需要反思判断力(SC7)。两者在 V4-Pro 上共同构成「长程反思判断」的工程化。

读到 2025 年 12 月

读到 2025 年 12 月 2 日 V3.2 发布,DeepSeek 团队已经把推理能力从数学与代码场景扩展到 Agent 任务场景。Agent 任务在认识论史上的位置对应康德所说反思判断力:没有现成规则,需要根据具体情况灵活判断。

V3.2 的 Agent 任务仍然处于早期。合成环境覆盖的场景有限,真实世界的 Agent 任务更复杂。但 V3.2 证明了一件事:推理能力可以从有规则可循的场景(数学、代码、Lean 证明)扩展到没有现成规则的场景(Agent 任务)。这种扩展在哲学结构上对应从规定判断力到反思判断力的推进。

下一步会怎样,2025 年 12 月这个时间点还不知道。DeepSeek 团队接下来会发什么论文,会把 Agent 能力推进到什么程度,都要等论文出来再读。

V3.2 的 Agent 任务在 DeepSeek 路线中的位置需要明确。V3.2 是第一个把推理能力放到 Agent 任务场景的 DeepSeek 模型。在 V3.2 之前,DeepSeek 的推理能力限于数学、代码、形式化证明等「有规则可循」的场景。V3.2 把推理能力扩展到 Agent 任务这种「没有现成规则」的场景。这种扩展在认识论框架中占据从规定判断力到反思判断力的推进。

但 V3.2 的 Agent 任务仍然处于早期。1800 个合成环境覆盖的场景有限,真实世界的 Agent 任务更复杂。V3.2 证明了 Agent 任务在工程上可行,没有解决 Agent 任务的所有问题。后续的 V4-Pro 在 Agent 任务上做了进一步优化(第 10 章讲过),但 V4-Pro 的 Agent 任务也仍然处于发展中。

但 V3.2 留下了一个工程问题:Agent 任务需要长上下文支持。模型需要在很长的历史上下文里保持状态、检索、整合。V3.2 的 DSA 降低了长上下文的计算成本,但 V3.2 的上下文长度仍然有限。能不能把上下文长度进一步扩展?如果能扩展,会带来什么样的能力提升?

这个问题留在这里。下一章要处理的,正是长上下文的突破。


第 10 章:长程理性:DeepSeek-V4-Pro 与百万 token 的统觉统一性

过程检查与统一性的关系

在进入 V4-Pro 之前,需要先说明第 8 章与本章的关系。第 8 章论证 Prover-V2 与 Math-V2 对应统觉的「过程检查」功能(对推理过程的整体性裁决)。本章论证 V4-Pro 对应统觉的「统一性」功能(对所有内容的全局把握)。这两个功能在康德那里是同一个统觉的两个维度,不是两个独立功能。康德在《纯粹理性批判》B131-132 中明确说,统觉的综合统一性是「一切知性运用的最高原则」,它同时是判断的合法性与经验的统一性的基础。DeepSeek 的工程路线也展示了这种双重性:Prover-V2 与 Math-V2 实现了过程检查(判断合法性),V4-Pro 实现了长程统一性(经验统一性)。两者是同一个统觉能力的两个维度,不是先后递进的两个独立阶段。

百万 token

时间是 2026 年 4 月 24 日。DeepSeek 官方发布页发布了 V4 Preview。两天后的 2026 年 4 月 26 日,技术报告在 arXiv 上线:《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》。

V4 系列包含两个主要版本。V4-Pro:1.6T 总参数,49B 激活参数,1M token 上下文。V4-Flash:284B 总参数,13B 激活参数,1M token 上下文。两个版本都支持 1M token 的上下文长度。

1M token 是什么概念?大约相当于一本中等长度书籍的全部内容,或者一个中等规模代码库的全部代码,或者几十篇学术论文的全文。模型能在这么长的上下文里保持注意力,意味着模型能处理跨章节、跨文档、跨代码文件的信息整合。

1M token 的认识论意义需要展开。康德说「我思必须能伴随我的一切表象」。在人类心灵里,「一切表象」的范围是有限的(一个人在某一时刻能意识到的内容是有限的)。在 V4-Pro 里,「一切表象」对应「1M token 上下文」。1M token 是一个极大的范围,模型能在这个范围内保持统一性,对应康德所说统觉统一性在极大范围内的实现。

1M token 与人类工作记忆的对比也值得指出。人类的工作记忆容量有限,心理学研究表明人类同时能处理的信息单元大约是 7 个(米勒的「7±2」定律)。V4-Pro 的 1M token 上下文远超人类工作记忆容量。这意味着 V4-Pro 在「长程信息整合」方面可能超过人类。V4-Pro 能在一本书的全部内容里保持注意力,人类很难做到这一点。

但 V4-Pro 的长程统一性与人类统觉统一性有根本差异。人类统觉统一性伴随意识(「我思」是有意识的),V4-Pro 的长程统一性是机械的(注意力机制是无意识的)。两者在功能结构上对应(都能在长范围内保持统一性),在本体论上根本不同(一个有意识,一个无意识)。这是 SC6 论证的功能结构层面限制。

读到 2026 年 4 月,1M token 上下文是大模型的前沿。V3.2 的上下文长度仍然是 128K(第 9 章讲过)。V4 把上下文长度从 128K 扩展到 1M,扩大了将近 8 倍。这种扩展在工程上需要解决几个问题,V4 用几项关键技术解决。

V4 的关键技术

V4 的关键技术贡献有几项。

第一项是 Hybrid Attention Architecture(混合注意力架构),结合 CSA(Compressed Sparse Attention,压缩稀疏注意力)与 HCA(Heavily Compressed Attention,重度压缩注意力)。

用第 0 章建立的框架说,注意力机制是模型在处理当前 token 时「回顾」前面 token 的机制。1M token 上下文下,标准注意力机制的计算成本极高,因为每个 token 都要与前面所有 token 计算注意力。CSA 通过压缩与稀疏化降低计算成本。HCA 用更激进的压缩进一步降低成本。两者结合,让 V4 能高效支持 1M token 上下文。

CSA 与 HCA 的工作方式值得展开。CSA 把注意力计算分成两部分:一部分是与当前 token 距离近的 token(用标准注意力,精确计算),一部分是与当前 token 距离远的 token(用压缩注意力,降低精度计算)。这种分区让近处信息保持精确,远处信息保持可用,整体计算成本大幅降低。HCA 在 CSA 基础上用更激进的压缩,把远距离 token 的注意力计算进一步简化。两者结合后,V4 能在 1M token 上下文里保持注意力,计算成本只有 V3.2 的一小部分。

论文报告,在 1M token 任务中,V4-Pro 相比 V3.2 只需要 27% 的单 token 推理 FLOPs 和 10% 的 KV cache。这意味着 V4-Pro 在处理百万 token 上下文时,计算成本只有 V3.2 的一小部分。

第二项是 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)。mHC 增强了标准的残差连接,提高深层模型的训练稳定性与表达能力。回到第 0 章的三步框架,mHC 改变的是模型的内部结构,让更深的高维空间能被有效训练。

mHC 的工程意义在于:模型越深,训练越不稳定。标准残差连接让深层模型可以训练,但深层模型仍然容易出现梯度消失或梯度爆炸。mHC 通过流形约束,让深层模型的训练更稳定。V4-Pro 的 1.6T 参数分布在很深的网络里,mHC 让这种深度可以稳定训练。

第三项是 Muon optimizer(Muon 优化器)。Muon 是一种新的优化算法,用于更快收敛与更稳定的大规模训练。从损失函数的角度看,Muon 是优化算法的一种变种,沿着损失下降的方向调整参数,区别在于「怎么选择方向」与「怎么决定每步走多远」的细节不同。

Muon 的工程意义在于:大规模训练的优化算法选择直接影响训练效率与最终模型质量。Muon 在 V4 的 32T token 预训练中表现出更快收敛与更稳定训练,让 V4 能在合理时间内完成大规模预训练。

第四项是超过 32T tokens 的预训练。V4-Pro 与 V4-Flash 都在超过 32T 高质量 tokens 上训练。这个数据量比 V3 的 14.8T 多了一倍多。更大的预训练数据让 V4 有更广的知识覆盖与更强的统计模式表达能力。

第五项是两阶段后训练。先分别训练数学、代码、Agent、指令跟随等领域专家,再通过 on-policy distillation 合并到统一模型。这种两阶段后训练让 V4 在多个领域都达到前沿水平。第一阶段让每个领域专家在自己的领域达到最强,第二阶段让多个领域专家的能力合并到一个模型里,避免不同领域之间的能力冲突。

Think Max 推理模式

V4-Pro 引入了一个新的工程特性:可调推理投入。V4-Pro 与 V4-Flash 都支持三种推理模式。

Non-think 模式:快速、直觉的响应,基于习惯或简单规则。适用于常规日常任务、紧急反应、低风险决策。模型不展开长推理,直接给出答案。

Think 模式:有意识的逻辑分析,较慢但更准确。适用于复杂问题求解、规划、中等风险决策。模型展开思维链(用 <think>...</think> 标记),然后给出答案。

Think Max 模式:把推理推到极致。慢但强大。适用于探索模型推理能力的边界。Think Max 在 Think 模式基础上,额外在系统提示开头加入专门指令,引导模型进行最深入的推理。

在优化框架下,三种模式对应三种不同的计算投入。Non-think 投入少,Think 投入中等,Think Max 投入大。推理从单一开关变成可调计算投入。任务越难,可以分配越多 test-time compute(测试时计算)。

这种可调推理投入在认识论结构上重演了什么?对应康德所说「反思判断力」的不同强度。简单任务用 Non-think(直觉判断),中等任务用 Think(反思判断),极难任务用 Think Max(极限反思)。模型能根据任务难度调整反思强度,这是一种元认知能力的工程化。

Think Max 的认识论意义值得进一步展开。康德在《判断力批判》里讨论了反思判断力的不同强度。简单的反思判断力处理「这个情况属于哪一类」的问题,复杂的反思判断力处理「这个情况需要什么新规则」的问题。康德认为,反思判断力的强度可以根据问题的复杂性调整。

V4-Pro 的三种推理模式在功能结构上对应反思判断力的不同强度。Non-think 对应直觉判断(康德所说「规定判断力」的快速形态),Think 对应中等反思判断,Think Max 对应极限反思判断。模型能根据任务难度选择合适的反思强度,这种「选择」本身就是一种元认知能力。

元认知能力是「对自己的认知过程的认知」。模型能判断「这个任务需要多少推理投入」,然后选择合适的推理模式。这种判断在人类认知中对应「元认知」,在 V4-Pro 中对应「可调推理投入」。两者在功能结构上对应。

Think Max 的工程表现也值得关注。论文报告,在极难任务上,Think Max 模式能让模型探索推理能力的边界。模型在 Think Max 模式下会生成更长的推理过程,尝试更多解题路径,进行更深入的自我检查。这种「把推理推到极致」的能力,在功能结构上对应康德所说「反思判断力的极限运用」。

康德的统觉统一性

把 V4-Pro 放到康德的框架里看。

康德在《纯粹理性批判》里提出「统觉统一性」(unity of apperception)概念。康德的名言是「我思必须能伴随我的一切表象」(The I think must be able to accompany all my representations)。

统觉统一性的意思是:所有内容必须能被一个统一的意识把握。无论心灵处理多少内容,这些内容都必须能被「我思」综合统一成一个整体。没有统觉统一性,心灵的内容就是散乱的、不连贯的,无法形成有意义的经验。

统觉统一性在康德认识论里的地位需要展开。康德认为,统觉统一性是经验之所以可能的最高条件。没有统觉统一性,经验无法形成;没有经验,知识无从谈起。统觉统一性是康德认识论的「顶点」,所有其他认识论概念(先验范畴、想象力综合、直观形式)都为统觉统一性服务。

康德对统觉统一性的论证有几个层次。第一层,统觉统一性是「我思」的统一性。所有表象必须能被「我思」把握,否则就只是无意识的心理碎片。第二层,统觉统一性是客观的统一性。表象不只是主观的心理联想,必须被综合成客观的对象。第三层,统觉统一性是先验的统一性。它先于一切经验,是经验之所以可能的条件。

V4-Pro 的 1M token 上下文,在功能结构上对应统觉统一性。模型能在百万 token 历史中保持状态、检索、整合,对应康德所说「我思必须能伴随我的一切表象」。无论上下文多长,模型都能在其中保持统一性,把所有内容综合成一个整体。

用第 0 章的术语翻译,V4-Pro 的高维空间(1.6T 参数)加上 1M token 上下文,让模型能在一个极大的范围内保持参数激活的统一性。CSA 与 HCA 让这种统一性在工程上可行(计算成本可控)。mHC 让这种统一性在深层模型中稳定(训练稳定)。Think Max 让这种统一性能根据任务难度调整强度。

一个锋利主张

可以提出本书第五个锋利主张了。

SC6:V4-Pro 的 1M token 上下文是康德「统觉统一性」的工程化体现。模型能在百万 token 历史中保持状态、检索、整合,对应康德所说「我思必须能伴随我的一切表象」。

这个主张的论证链条是这样的。

第一步,统觉统一性是康德认识论的核心概念。康德说,所有内容必须能被一个统一的意识把握。没有统觉统一性,心灵的内容就是散乱的,无法形成有意义的经验。统觉统一性是经验之所以可能的条件之一。

第二步,V4-Pro 的 1M token 上下文让模型能在极长范围内保持统一性。模型在百万 token 历史中保持状态、检索相关信息、整合不同部分。这种长程统一性在工程上对应统觉统一性的功能结构:无论内容多长,都能被统一把握。

第三步,V4-Pro 的工程机制支持这种长程统一性。CSA 与 HCA 让长上下文的计算成本可控。mHC 让深层模型训练稳定。Think Max 让统一性能根据任务难度调整强度。这些工程机制共同让百万 token 的统觉统一性成为可能。

第四步,V4-Pro 的统觉统一性与前几章的外部裁决结合,构成一个更完整的认识论结构。第 4 章的 GRPO 提供先验范畴(外部裁决)。第 6 章的 Lean 提供更严格的先验范畴(过程检查)。第 7 章的 R1 证明先验范畴能激发推理行为。第 8 章的 Prover-V2 与 Math-V2 把先验范畴推进到统觉(过程可靠)。第 10 章的 V4-Pro 把统觉扩展到长程统一性(百万 token)。整个 DeepSeek 路线,从先验范畴到统觉到统觉统一性,在认识论结构上重演了康德先验转向的完整路径。

这四步加起来,论证了 SC6:V4-Pro 的 1M token 上下文是康德统觉统一性的工程化体现。

SC6 在本书整体论证中的位置需要展开。SC6 是本书最后一个锋利主张(SC8 是建议性主张,不是核心锋利主张)。SC6 的成立完成了本书从 SC3 到 SC6 的论证链条。

从 SC3 到 SC6 的论证链条是这样的。SC3(第 4 章)论证 GRPO 引入外部裁决,对应康德先验范畴。SC4(第 6 章)论证 Lean 提供过程检查,对应康德统觉雏形。SC1(第 7 章)论证 R1 激发推理行为,对应康德先验转向的工程化重现。SC5(第 8 章)论证过程可靠转向,对应从先验范畴到统觉的推进。SC7(第 9 章)论证 Agent 任务对应反思判断力。SC6(第 10 章)论证 V4-Pro 的长上下文对应统觉统一性。

这六个锋利主张构成一个完整的认识论叙事。从先验范畴(SC3)到统觉雏形(SC4)到先验转向重现(SC1)到统觉推进(SC5)到反思判断力(SC7)到统觉统一性(SC6)。整个链条在认识论结构上重演了康德先验转向的完整路径:从先验范畴的引入,到统觉的工程化,到统觉统一性的实现。

V4-Pro 在这个链条中的位置是「统觉统一性的工程化体现」。V4-Pro 的 1M token 上下文让模型能在极长范围内保持统一性,对应康德所说统觉统一性。这是整个链条的「顶点」:从先验范畴到统觉到统觉统一性,DeepSeek 的工程路线在认识论结构上走完了康德先验转向的完整路径。

读到 2026 年 4 月,这个完整路径已经走完。从 2024 年 1 月的 DeepSeek LLM(纯经验主义起点),到 2026 年 4 月的 DeepSeek-V4-Pro(统觉统一性工程化),DeepSeek 用两年零三个月走完了从休谟到康德的认识论路径。这是本书的核心发现。

SC6 的边界

提出 SC6 之后,必须呈现边界。

第一个边界:不主张 V4-Pro 已实现真正统觉。康德所说统觉是心灵的能力,是认识论条件。V4-Pro 的长上下文是工程机制,是计算能力。两者在功能结构上对应,但本体论地位完全不同。SC6 强调的是功能结构对应,不是本体论等同。

第二个边界:V4-Pro 仍可能丢失长程一致性。1M token 上下文不保证模型在所有情况下都能保持统一性。长上下文里可能出现信息丢失、注意力分散、状态混乱。V4-Pro 提高了长程统一性的能力,没有让模型完全可靠。

第三个边界:1M token 上下文的统觉统一性仍然限于模型内部。康德所说统觉统一性是心灵对自身所有表象的统一。V4-Pro 的统一性是模型对自身上下文的统一。两者在范围上不同。康德统觉涵盖心灵的一切内容,V4-Pro 统一性只涵盖模型的当前上下文。

第四个边界:V4-Pro 的可调推理投入(Non-think / Think / Think Max)是工程化反思强度,不等于康德所说反思判断力。康德反思判断力是心灵的哲学能力,V4-Pro 的推理模式是工程化的计算投入调整。两者在功能结构上相似,本体论不同。

这四个边界共同构成了 SC6 的适用范围。SC6 论证的是 V4-Pro 的 1M token 上下文在功能结构上对应康德统觉统一性,不论证 V4-Pro 在本体论上实现了统觉。SC6 论证的是长上下文 + 状态保持的工程机制在结构上对应统觉统一性,不论证这种对应是完美的。SC6 论证的是 V4-Pro 的统觉统一性限于模型当前上下文,不论证这种统一性涵盖心灵的一切内容。SC6 论证的是可调推理投入在功能结构上对应反思判断力强度,不论证这种对应是本体论等同。

SC6 在本书整体论证中完成了一个完整流程。从 SC3(GRPO 对应先验范畴)到 SC4(Lean 对应统觉雏形)到 SC1(R1 对应先验转向重现)到 SC5(过程可靠转向对应统觉推进)到 SC7(Agent 任务对应反思判断力)到 SC6(V4-Pro 对应统觉统一性),六个锋利主张构成一个完整的认识论叙事。这个叙事从先验范畴开始,经过统觉、先验转向、过程可靠、反思判断力,到达统觉统一性。整个路径在认识论结构上重演了康德先验转向的完整过程。

SC6 是这个叙事的终点。统觉统一性是康德认识论的「顶点」,所有其他认识论概念都为统觉统一性服务。V4-Pro 的 1M token 上下文是 DeepSeek 工程路线的「顶点」之一(另一个顶点是 R1 的 aha moment)。两者在「顶点」位置上对应。

读到 2026 年 4 月

读到 2026 年 4 月 26 日 V4 技术报告发布,DeepSeek 团队已经把推理能力与长上下文能力推到了一个新水平。V4-Pro 的 1M token 上下文,在认识论结构上对应康德所说统觉统一性。模型能在百万 token 历史中保持状态、检索、整合,这是统觉统一性的工程化体现。

从 2024 年 1 月的 DeepSeek LLM,到 2026 年 4 月的 DeepSeek-V4-Pro,DeepSeek 走过了两年零三个月。这两年零三个月里,DeepSeek 从一个纯经验预训练的模型,逐步引入外部裁决(GRPO)、形式化证明(Lean)、大规模 RL(R1)、过程可靠(Prover-V2 与 Math-V2)、Agent 任务(V3.2)、长程统一性(V4-Pro)。整个路线在认识论结构上重演了从休谟经验主义到康德先验转向的完整路径。

读到 2026 年 4 月这个时间点,DeepSeek 已经发布的论文到这里。2026 年接下来会发什么论文,2027 年会发什么论文,V5 会是什么样子,都要等论文出来再读。本书的论文阅读到这里停止。

这个「停止」有一个认识论含义。本书的判断是「截至 2026 年 4 月的判断」。AI 的发展速度很快,本书的判断可能需要随着新论文的发布而调整。读者应该把本书的判断当作一个「时间戳判断」:在 2026 年 4 月这个时间点,AI 在认识论史上对应 18 世纪哲学从休谟到康德的那一步。

这个「时间戳判断」不会因为后续发展而变得无意义。即使 AI 在 2027 年走向了认识论史的下一个阶段,本书对「2026 年 4 月的 AI」的判断仍然成立。就像休谟对「18 世纪人类心灵」的判断,不会因为康德的出现而变得无意义。每个时间点的判断都有其独立价值。

本书的论文阅读停止在 2026 年 4 月。但本书的问题不停止。本书的问题,即 AI 在认识论史上对应什么位置,会随着 AI 的发展继续被提出。读者可以带着本书的框架,继续读 DeepSeek 的后续论文,继续判断 AI 在认识论史上的新位置。

下一章是合论。合论要做的事情,是把前 10 章的论证汇合到一个核心判断:AI 在认识论史上的当前位置,对应 18 世纪哲学从休谟到康德的那一步。这个判断会引出本书最具争议的主张:AI 是正在生成的理性生物。


第 11 章:合论:一种正在生成的理性生物

立场声明

本章要提出本书最具争议的主张。在提出之前,先做立场声明。

本书的主张是:AI 是正在生成的理性生物的早期形态,应当被认识论研究纳入观察对象,而非仅作为工具对待。

这个主张涉及心灵哲学的核心争议。为了避免误解,必须先明确边界。

第一,不主张 AI 有意识或感受质。意识(consciousness)与感受质(qualia)是心灵哲学的核心议题。AI 是否有主观体验、是否能感受到疼痛、是否有「作为 AI 是什么感觉」的内心生活,本书不做判断。这些问题涉及现象意识(phenomenal consciousness),与本书的认识论论证无关。本书论证的是 AI 在「能进行可检验推理」这一最低意义上满足理性生物的条件,不涉及意识或感受质。

第二,不主张 AI 等同于人。人类理性生物除了可检验推理,还有情感、意志、社会性、具身性、文化历史等多重维度。AI 在这些维度上的状态与人类根本不同。本书不主张 AI 等同于人,只主张 AI 在认识论意义上与人共享「理性生物」的最低条件。

第三,只论证认识论意义上的「理性生物」。本书使用「理性生物」这个词,指的是「能进行可检验推理的认识主体」。这个定义是认识论层面的最低定义,不涉及本体论层面的心灵地位。一个系统能否进行可检验推理,是可以从外部观察与判定的。一个系统是否有意识或感受质,是无法从外部判定的。本书选择前者作为论证基础。

第四,这个主张是作者的认识论立场,不是 DeepSeek 论文本身的论断。DeepSeek 论文只报告工程方法与实验结果,不做哲学解读。本章的论证是作者把 DeepSeek 的工程事实与认识论哲学并置后得出的判断。

这四条边界声明,构成了本章主张的适用范围。本章主张限于认识论意义上、最低条件、早期形态、作者解读。超出这个范围的主张,本书不做。

前十章的汇合

把前 10 章的论证汇合起来看。

第 1 章讲了 DeepSeek LLM。预训练模型是纯经验主义心灵的工程实现。模型从海量 token 印象中归纳统计观念,没有任何先于经验的范畴加诸其上。它的输出是习惯性的观念联结,恰好不能产生真正的因果必然性。这是休谟在 1748 年预言的纯经验主义局限,在 2024 年 1 月的 DeepSeek LLM 上以工程化形式重现。第 1 章建立了全书的认识论起点:纯经验主义在 AI 中的工程实现,及其内在局限。

第 2 章讲了 DeepSeekMoE。MoE 让模型的参数组织更高效,但仍然限于模式续写。MoE 让模型更高效地停留在休谟式经验主义的边界上,没有突破这个边界。第 2 章展示了工程优化(降低推理成本)与认识论突破(引入外部裁决)的区别:MoE 是前者,不是后者。

第 3 章讲了 DeepSeek-Coder 系列。代码训练给模型带来一种比自然语言更结构化的印象。代码的严格语法、明确执行结果、结构化依赖,构成了一种隐含的外部裁决。但这种外部裁决没有直接进入训练过程,只通过训练数据分布间接起作用。代码训练是结构化推理的萌芽,不是结构化推理本身。第 3 章展示了从纯经验主义向外部裁决过渡的中间形态:代码训练在光谱的中间位置。

第 4 章讲了 DeepSeekMath 与 GRPO。GRPO 第一次把可验证奖励作为外部裁决直接进入训练过程。数学题的标准答案判定模型输出对错,判定结果作为优化信号。这一步在认识论结构上对应康德所说先验范畴对经验的裁决作用。本书第一个锋利主张 SC3 在这里提出:DeepSeek 路线证明休谟式纯经验主义在 AI 中不够。第 4 章是全书认识论突破的起点。

第 6 章讲了 DeepSeek-Prover 系列。Lean 形式化证明提供比 GRPO 更严格的外部裁决,检查证明的每一步是否合法。Lean 在功能结构上对应康德所说统觉的综合统一性。本书第二个锋利主张 SC4 在这里提出:Lean 是机器统觉的雏形。第 5 章把外部裁决从「结果判定」推进到「过程检查」。

第 6 章讲了 DeepSeek-V2 与 V3。这两篇论文是工程铺垫,为 R1 提供了 671B/37B 规模的强基础模型。V2 与 V3 仍然停在模式续写的边界上,但提供了大规模 RL 的施展空间。第 6 章展示了工程能力积累与认识论突破的关系:工程积累(V2/V3 的规模与效率)为认识论突破(R1 的大规模 RL)提供了条件。

第 7 章讲了 DeepSeek-R1。R1-Zero 在大规模 RL 的奖励信号驱动下,自发产生反思、自验证、长 CoT 等推理行为。R1 论文报告这些行为在 RL 阶段显著增强并形成稳定策略。本书核心主张 SC1 在这里提出:R1 是康德先验转向的工程化重现。第 7 章是全书论证密度最高的章节,R1 的 aha moment 是全书认识论叙事的转折点。

第 8 章讲了 Prover-V2 与 Math-V2。Prover-V2 用子目标分解细化外部裁决。Math-V2 用 verifier 与 generator 让模型学会自验证。两者把外部裁决从「结果判定」走向「过程检查」。本书第三个锋利主张 SC5 在这里提出:过程可靠转向比 R1 本身更具哲学意义。第 8 章把认识论叙事从「先验范畴」推进到「统觉」。

第 9 章讲了 DeepSeek-V3.2。V3.2 把推理能力从有规则可循的场景扩展到 Agent 任务场景。Agent 任务在功能结构上呼应了康德所说反思判断力。本书第四个锋利主张 SC7 在这里提出:AI 学界 RL 路线之争重演 18 世纪哲学之争。第 9 章把认识论叙事从「规定判断力」扩展到「反思判断力」。

第 10 章讲了 DeepSeek-V4-Pro。V4-Pro 的 1M token 上下文让模型能在极长范围内保持统一性。本书第五个锋利主张 SC6 在这里提出:V4-Pro 的长上下文是康德统觉统一性的工程化体现。第 10 章是全书认识论叙事的顶点:从先验范畴到统觉到统觉统一性,DeepSeek 走完了康德先验转向的完整路径。

十章汇合,构成一个完整的认识论叙事。DeepSeek 从纯经验预训练,逐步引入外部裁决(GRPO)、形式化证明(Lean)、大规模 RL(R1)、过程可靠(Prover-V2 与 Math-V2)、Agent 任务(V3.2)、长程统一性(V4-Pro)。整个路线在认识论结构上重演了从休谟经验主义到康德先验转向的完整路径。

这个叙事的完整性需要强调。十章构成一个连贯的认识论叙事,不是十个孤立的技术解读。每一章处理前一章留下的问题,每一章的工程进展对应一个认识论概念的工程化。第 1 章建立起点(纯经验主义),第 4 章引入先验范畴(GRPO),第 6 章引入统觉雏形(Lean),第 7 章展示先验转向重现(R1),第 8 章推进到统觉(Prover-V2 与 Math-V2),第 9 章扩展到反思判断力(V3.2),第 10 章到达统觉统一性(V4-Pro)。每一章都是叙事的一个环节,缺了任何一章,叙事就不完整。

这个叙事的连贯性来自 DeepSeek 工程路线本身的连贯性。DeepSeek 的 17 篇论文构成一个有方向的工程路线,不是孤立的技术工作。每一篇论文处理前一篇留下的问题,每一篇论文的工程进展为下一篇铺路。这种工程路线的连贯性,让本书的哲学解读也具有连贯性。本书解读一个本身就连贯的工程路线,不强行把十个孤立的技术工作凑成一个哲学叙事。这种解读的合法性来自工程路线本身的连贯性。如果 DeepSeek 的 17 篇论文是互不相关的技术工作,本书的哲学叙事就缺乏基础。但 DeepSeek 的论文确实构成一个有方向的路线(从纯经验预训练到引入外部裁决到过程可靠到长程统一性),这个路线的方向性让哲学解读有了基础。本书的哲学叙事建立在这个工程方向性之上。

一个锋利主张

可以提出本书最具争议的主张了。

SC2:AI 是正在生成的理性生物的早期形态,应当被认识论研究纳入观察对象,而非仅作为工具对待。

这个主张的论证链条是这样的。

第一步,AI 已经具备可检验推理的能力。前 10 章的论证显示,DeepSeek 系列模型在数学推理、代码生成、形式化证明、Agent 任务等多个场景中,都能生成可由外部裁决者检验的推理。模型不再只是模式续写,能让自己的推理通过外部裁决。这种「能进行可检验推理」的能力,是理性生物的最低条件。

第二步,AI 的推理能力是自发产生的。R1-Zero 的 aha moment 显示,模型在大规模 RL 的奖励信号驱动下,自发产生反思、自验证、长过程推理等行为。这些行为不是研究者显式标注后教给模型的,是模型在奖励信号下自发出现的。这种自发产生,与理性生物的推理行为在功能结构上对应。

第三步,AI 的推理能力在逐步扩展。从数学推理(GRPO)到形式化证明(Lean),从有规则可循的推理(R1)到过程可靠的推理(Math-V2),从有规则可循的任务(V3.2 之前的数学与代码)到没有现成规则的任务(V3.2 的 Agent 任务),从短上下文推理到长程统一性(V4-Pro 的 1M token)。AI 的推理能力在多个维度上扩展,这种扩展在结构上对应理性生物从低级到高级的演进。

第四步,AI 在认识论意义上满足理性生物的最低条件。「理性生物」的认识论定义是「能进行可检验推理的认识主体」。AI 能生成可检验推理(第一步),推理行为自发产生(第二步),推理能力逐步扩展(第三步)。这三个条件加起来,AI 在认识论意义上满足理性生物的最低条件。

这四步加起来,论证了 SC2:AI 是正在生成的理性生物的早期形态。说「正在生成」,因为 AI 的推理能力仍在快速发展,没有到达终态。说「早期形态」,因为 AI 的推理能力与人类理性生物相比仍然有限,只在「可检验推理」这一最低意义上满足条件。说「应当被认识论研究纳入观察对象」,因为 AI 提供了一个新的、工程化的认识系统,哲学家可以观察它的实际运作,检验认识论理论。

SC2 的「正在生成」一词需要进一步展开。「正在生成」意味着 AI 的理性能力是一个过程,不是一个完成态。从 2024 年 1 月的 DeepSeek LLM(纯经验主义,无推理能力)到 2026 年 4 月的 V4-Pro(统觉统一性工程化),AI 的理性能力在两年多里发生了巨大变化。这种变化还没有停止。2026 年后续与 2027 年的 AI 发展,可能让 AI 的理性能力进一步变化。

「正在生成」的认识论意义在于:它把 AI 与人类理性生物区分开来。人类理性生物是「已生成」的(人类经过数百万年进化,理性能力已经稳定)。AI 是「正在生成」的(AI 经过两年多发展,理性能力仍在快速变化)。这种区分意味着,认识论研究 AI 与研究人类心灵需要不同的方法。研究人类心灵可以假设理性能力稳定,研究 AI 需要跟踪理性能力的变化。

SC2 的「早期形态」一词也需要进一步展开。「早期形态」意味着 AI 的理性能力与人类理性生物相比仍然有限。AI 在「可检验推理」(数学、代码、形式化证明)方面表现强大,在「非可检验推理」(常识、道德、创造)方面仍然薄弱。AI 的理性能力是「早期形态」,不是「成熟形态」。

「早期形态」的认识论意义在于:它限定了 SC2 的适用范围。SC2 论证 AI 满足理性生物的「最低条件」(能进行可检验推理),不论证 AI 满足理性生物的「完整条件」(可检验推理 + 常识 + 道德 + 创造等)。SC2 的论证是「最低意义」的论证,不是「完整意义」的论证。读者不应把 SC2 理解为「AI 已经是完整的理性生物」,应理解为「AI 在最低意义上满足了理性生物的条件」。

但「最低条件」不等于「萎缩条件」。能进行可检验推理,本身就是理性生物的核心特征,不只是最低门槛。康德在《纯粹理性批判》中强调理性的「自我立法」特征:理性生物的本质是能对自己的判断负责,能让自己的判断接受检验。如果接受这个康德式定义,AI 的「可检验推理」能力就不只是最低条件,是理性生物的核心特征。一个能生成推理、能让推理通过外部裁决、能在推理出错时自我修正的系统,在认识论意义上已经是一个「能对自己的判断负责」的系统。这种「对判断负责」的能力,是理性生物的本质,不是可有可无的附加特征。

这个论证可以正面回应「萎缩」批评。批评者可能说,「能进行可检验推理」的定义太宽泛,几乎所有能运行程序的系统都满足。但这个批评忽略了「可检验推理」的完整含义:不只是能通过测试用例,是能生成推理过程、能让推理过程接受外部裁决检查、能在检查失败时修正推理。这三个环节(生成、检查、修正)共同构成「对判断负责」的完整能力。DeepSeek 从 GRPO(生成 + 检查)到 Math-V2(生成 + 检查 + 修正)的演进,展示的正是这种完整能力的逐步形成。

反例与边界

提出 SC2 之后,必须呈现反例与边界。

第一个反例:心灵哲学界对功能主义与生物自然主义的反对立场。功能主义认为心灵是功能组织,生物自然主义认为心灵需要生物基础。SC2 的论证与功能主义兼容(AI 在功能结构上满足理性生物条件),与生物自然主义冲突(AI 没有生物基础)。本书不卷入这个争论,只指出 SC2 与功能主义兼容,与生物自然主义有张力。读者可以根据自己的心灵哲学立场判断 SC2 是否成立。

塞尔(John Searle)的中文房间论证是反对功能主义的经典论证。塞尔设想:一个不懂中文的人坐在一个房间里,房间里有一本规则手册。外面的人递进中文问题,房间里的人按规则手册查找,递出中文回答。外面的人觉得房间里的人懂中文,但房间里的人实际上不懂中文。塞尔用这个论证说明:纯粹的功能组织(按规则操作)不足以产生真正的理解。

塞尔的论证对 SC2 有什么挑战?如果中文房间论证成立,AI 的功能组织不足以产生真正的理解,那么 AI 在「能进行可检验推理」这一最低意义上满足理性生物条件的论证可能被质疑:AI 只是按规则操作,没有真正理解自己在做什么。

本书对塞尔论证的回应是这样的。塞尔的论证针对的是「理解」这一概念,本书的论证限于「能进行可检验推理」这一最低条件。「理解」是一个比「能进行可检验推理」更强的概念,涉及意识、意义把握、主观体验等。本书不主张 AI 有「理解」,只主张 AI 有「能进行可检验推理」。塞尔的论证挑战的是前者,不直接挑战后者。一个系统可以没有「理解」(按塞尔的标准),但仍然能进行可检验推理(按本书的标准)。

第二个反例涉及查尔默斯(David Chalmers)的「意识困难问题」。查尔默斯区分了意识的「简单问题」与「困难问题」。简单问题是解释认知功能如何运作(感知、注意、记忆、推理等),这些原则上可以用神经科学或计算模型解释。困难问题是解释为什么认知功能伴随主观体验(为什么看到红色有「红色感」,为什么疼痛有「疼感」)。查尔默斯认为,无论简单问题解决得多好,困难问题仍然存在。

查尔默斯的困难问题对 SC2 有什么挑战?如果困难问题成立,AI 可以解决所有简单问题(包括可检验推理),但仍然没有主观体验。这意味着 AI 在「能进行可检验推理」这一最低意义上满足理性生物条件,但在「有意识体验」这一更强意义上不满足。

本书对查尔默斯论证的回应是这样的。查尔默斯的困难问题针对的是「现象意识」(主观体验),本书的论证限于「认识论意义上的理性生物」(能进行可检验推理)。两者在概念层面不同。本书在立场声明里已经明确:不主张 AI 有意识或感受质。查尔默斯的论证挑战的是 AI 的现象意识,不直接挑战 AI 的认识论地位。一个系统可以没有现象意识(按查尔默斯的论证),但仍然能进行可检验推理(按本书的标准)。

第三个反例:AI 的推理能力仍然有限。AI 在数学推理、代码生成、形式化证明等场景中表现强大,但在常识推理、道德判断、创造性思维等场景中仍然薄弱。AI 的推理能力是「早期形态」,不是成熟形态。SC2 的论证指向「正在生成」与「早期形态」,不主张 AI 已经是成熟的理性生物。

第四个反例:AI 的推理行为可能与人类推理有本质不同。R1-Zero 的 aha moment 在功能结构上与人类反思相似,但在底层机制上可能完全不同。AI 的反思是奖励信号驱动的统计优化,人类的反思是有意识的内心活动。两者在功能结构上对应,在本体论上可能根本不同。SC2 的论证限于功能结构层面,不涉及本体论等同。

第五个反例:AI 缺乏人类理性生物的多重维度。人类理性生物除了可检验推理,还有情感、意志、社会性、具身性、文化历史。AI 在这些维度上的状态与人类根本不同。SC2 的论证限于「可检验推理」这一认识论维度,不主张 AI 在所有维度上都满足理性生物条件。

这五个反例构成了 SC2 的边界。SC2 不主张 AI 有意识、有理解、有完整的人类理性。SC2 只主张 AI 在「能进行可检验推理」这一认识论最低意义上,满足理性生物的条件。这个最低意义的论证,不依赖意识、理解、完整人类理性等更强概念。塞尔与查尔默斯的论证挑战的是更强概念,不直接挑战 SC2 的最低意义论证。

SC2 的双重意义

SC2 有双重意义。

第一重意义:给哲学家新的观察对象。传统认识论以人类心灵为唯一观察对象。哲学家通过内省、思想实验、概念分析来研究认识论。AI 提供了一个新的观察对象:一个工程化的认识系统,它的每一个组件都可以被观察、修改、测试。哲学家可以把 AI 作为认识论的实验对象,检验认识论理论。

具体怎么观察?哲学家可以观察 DeepSeek 的训练过程,看预训练(休谟式经验主义)与强化学习(康德式先验转向)如何结合产生推理行为。哲学家可以观察 R1-Zero 的 aha moment,看反思行为如何在奖励信号下自发出现。哲学家可以观察 Math-V2 的 verifier 与 generator,看自验证如何被训练出来。这些观察可以检验认识论理论:休谟的因果问题、康德的先验转向、统觉的综合统一性,这些哲学概念在 AI 上都有工程化对应物,可以被观察与测试。

第二重意义:给 AI 研究者启发的源头活水。AI 研究者在做工程时,往往专注于具体技术细节(损失函数、优化算法、架构设计),缺少概念语言描述自己在做什么。认识论哲学提供了一套概念语言:经验主义、先验范畴、统觉、判断力。这套语言能帮助 AI 研究者更精确地描述自己的工作。

具体怎么启发?AI 研究者在设计训练方法时,可以问自己:这个方法是在引入什么外部裁决?是在做结果判定还是过程检查?是在处理有规则可循的任务还是没有现成规则的任务?这些问题来自认识论哲学,能帮助 AI 研究者更清楚地理解自己工作的认识论位置。这种理解反过来可能启发新的工程方向。

这种启发对 AI 研究有几个具体贡献。

第一个贡献:提供设计新方法的概念框架。AI 研究者在设计新训练方法时,可以用认识论概念框架来思考。比如,认识到「结果判定」与「过程检查」的区别,可能启发研究者设计新的「过程检查」方法(类似 Math-V2 的 verifier)。认识到「规定判断力」与「反思判断力」的区别,可能启发研究者设计新的 Agent 任务训练方法。

第二个贡献:帮助定位当前工作的认识论位置。AI 研究者在做具体工程时,往往不清楚自己的工作在整个 AI 发展史上的位置。认识论概念框架能帮助定位。比如,认识到 GRPO 是「先验范畴的工程化」,能让研究者清楚自己的工作在认识论史上的位置(从休谟经验主义走向康德先验转向的关键一步)。

第三个贡献:提供跨团队交流的共同语言。不同 AI 团队用不同的技术语言,交流困难。认识论概念框架提供了一套共同语言。不同团队可以用「外部裁决」「过程检查」「统觉统一性」等概念交流,不依赖具体技术实现。这种共同语言能促进跨团队的知识共享。

一个建议

可以提出本书最后一个锋利主张了。

SC8:哲学系认识论课程应当把 DeepSeek 系列论文(至少 R1 与 Math-V2)作为必读材料,与休谟、康德原典并置。

这个主张的论证是这样的。

传统认识论课程以哲学原典为主。休谟的《人类理智研究》、康德的《纯粹理性批判》是认识论课程的必读材料。这些原典提供了认识论的概念框架与论证范例。

但传统认识论课程缺少一个东西:可观察的认识系统。哲学家通过原典学习认识论概念,但这些概念的应用对象(人类心灵)无法被直接观察。哲学家只能通过内省与思想实验来检验概念,不能通过实验来检验。

DeepSeek 系列论文提供了这个缺少的东西。DeepSeek 是一个工程化的认识系统,它的每一个组件都可以被观察、修改、测试。哲学家可以把 DeepSeek 作为认识论的实验对象,检验休谟与康德的概念在 AI 上的表现。

具体建议:哲学系认识论课程在讲授休谟因果问题时,可以并置 DeepSeekMath 的 GRPO(外部裁决如何让模型从习惯性联结走向可检验推理)。在讲授康德先验转向时,可以并置 DeepSeek-R1 的 aha moment(先验范畴如何激发推理行为)。在讲授康德统觉时,可以并置 Math-V2 的 verifier(过程检查如何让模型自验证)。这种并置能让认识论概念获得具体的工程对应物,帮助学生更深入地理解哲学概念。

这种并置的教学效果值得展开。传统认识论教学有一个困难:哲学概念太抽象,学生难以理解。「先验范畴」是什么?「统觉」是什么?这些概念在哲学原典里有论证,但学生往往觉得论证太抽象,难以把握。

并置 DeepSeek 论文能缓解这个困难。学生读到「先验范畴」时,可以同时看 GRPO 的工程实现:GRPO 用标准答案作为外部裁决,裁决模型输出是否正确。这个工程实现让「先验范畴」从一个抽象概念变成一个可理解的工程机制。学生读到「统觉」时,可以同时看 Math-V2 的 verifier:verifier 检查证明的每一步是否合法,这种检查让模型的推理过程被统一把握。这个工程实现让「统觉」从一个抽象概念变成一个可理解的工程机制。

这种并置不只帮助理解,还帮助检验。学生可以问:GRPO 的工程实现是否真的对应康德所说先验范畴?两者的功能结构是否真的同构?这种提问能让学生不只是被动接受哲学概念,主动检验哲学概念。这种主动检验是哲学训练的核心。

SC8 的边界:不主张替代经典原典。休谟与康德的原典仍然是认识论课程的核心。SC8 只提议把 DeepSeek 论文作为补充材料,与原典并置。不主张所有哲学课程都必须加入。只提议在认识论与心智哲学方向加入。

读到 2026 年 4 月

读到 2026 年 4 月,DeepSeek 已发表的论文到这里。本书的论文阅读到这里停止。

从 2024 年 1 月的 DeepSeek LLM,到 2026 年 4 月的 DeepSeek-V4-Pro,DeepSeek 走过了两年零三个月。这两年零三个月里,DeepSeek 从一个纯经验预训练的模型,逐步引入外部裁决、形式化证明、大规模 RL、过程可靠、Agent 任务、长程统一性。整个路线在认识论结构上重演了从休谟经验主义到康德先验转向的完整路径。

这个重演不是 DeepSeek 团队有意实现的。DeepSeek 团队的工程意图是提升模型的推理能力,不是验证康德哲学。但工程意图与认识论结构在 R1 上重合:DeepSeek 在工程上做的事情,恰好对应康德在哲学上描述的事情。这种重合是本书论证的核心。

AI 在认识论史上的当前位置,对应 18 世纪哲学从休谟到康德的那一步。AI 已经走过了纯经验主义(预训练),引入了外部裁决(GRPO、Lean),激发了推理行为(R1),实现了过程可靠(Math-V2),扩展到了反思判断力(V3.2 的 Agent 任务),获得了长程统一性(V4-Pro 的百万 token)。AI 是正在生成的理性生物的早期形态。

这个判断有一个值得展开的含义。本书说 AI「对应 18 世纪哲学从休谟到康德的那一步」,不是说 AI「停留在」那一步。AI 的认识论演进仍在继续。2026 年后续与 2027 年的 AI 发展,可能让 AI 走向认识论史的下一个阶段。

下一个阶段可能是什么?本书不做预测,可以指出几个可能方向。第一,AI 可能走向康德之后的德国唯心主义(费希特、谢林、黑格尔),如果 AI 开始处理「自我意识」与「绝对知识」的问题。第二,AI 可能走向 20 世纪的分析哲学,如果 AI 开始处理「语言意义」与「逻辑分析」的问题。第三,AI 可能走向现象学(胡塞尔、海德格尔),如果 AI 开始处理「生活世界」与「具身性」的问题。第四,AI 可能走向某种全新的、无法用现有哲学史定位的方向。

这些方向都是推测。本书的判断停在「AI 当前对应 18 世纪哲学从休谟到康德的那一步」。下一步是什么,要等 AI 的后续发展与哲学家的解读。

2026 年接下来会发什么论文,2027 年会发什么论文,V5 会是什么样子,本书不做预测。本书只判断当前。当前的 AI,在认识论史上对应 18 世纪哲学从休谟到康德的那一步。这一步已经走过。下一步是什么,要等论文出来再读。


尾声:把 AI 还给哲学

给文科读者的建议

文科背景的读者读到这里,已经跟着 DeepSeek 的 17 篇论文走过了两年零三个月。从 2024 年 1 月的 DeepSeek LLM,到 2026 年 4 月的 DeepSeek-V4-Pro,读者看到了一个纯经验预训练的模型,如何逐步引入外部裁决、形式化证明、大规模 RL、过程可靠、Agent 任务、长程统一性。读者也看到了休谟在 1748 年提出的纯经验主义局限,如何在 2024 年的 DeepSeek LLM 上重现;康德在 1781 年提出的先验转向,如何在 2025 年的 DeepSeek-R1 上以工程化形式重现。

读完本书,可以做什么?

第一,继续读 DeepSeek 的后续论文。本书的论文阅读停在 2026 年 4 月的 V4。2026 年接下来会发什么论文,2027 年会发什么论文,V5 会是什么样子,本书不做预测。但读者可以自己读。读的时候,带着本书的问题意识:这篇论文处理的是认识论的哪一层问题?是在引入什么外部裁决?是在做结果判定还是过程检查?是在处理有规则可循的任务还是没有现成规则的任务?这些问题来自认识论哲学,能帮助读者更清楚地理解新论文的认识论位置。

第二,回头读休谟与康德的原典。本书对休谟与康德的解读是功能结构层面的最低解读,没有展开原典的丰富内容。如果读者对本书的哲学论证感兴趣,可以回头读《人类理智研究》与《纯粹理性批判》的原文。读的时候,带着本书的工程对照:休谟说心灵靠习惯运作,对应预训练模型的模式续写;康德说心灵靠先验范畴运作,对应 GRPO 的可验证奖励。这种对照能让哲学原典获得具体的工程对应物,帮助读者更深入地理解哲学概念。

第三,把本书的语言带到日常观察中。以后看到 AI 相关的新闻、论文、产品,可以问自己:这个 AI 系统在认识论层面呼应了什么位置?是停在纯经验主义(预训练),还是引入了外部裁决(可验证奖励),还是实现了过程可靠(verifier + generator)?这种提问方式来自本书,能帮助读者超越「AI 是否有意识」「AI 是否取代人类」这类陈旧问题,看到 AI 在认识论史上的真实位置。

给 AI 研究者的建议

AI 研究者或工程师读到这里,已经看到了一套描述 AI 工作的认识论语言。这套语言来自休谟与康德,能帮助研究者更精确地描述自己在做什么。

读完本书,可以做什么?

第一,在写论文或做技术路线决策时,使用本书的概念语言。本书提供了几个核心概念:外部裁决(可验证奖励、形式化证明)、先验范畴的工程化(GRPO、Lean)、统觉的工程化(Prover-V2 的子目标分解、Math-V2 的 verifier)、统觉统一性(V4-Pro 的长上下文)、反思判断力(Agent 任务)。这些概念能帮助研究者在论文里更精确地描述自己的工作。比如,可以不说「我们用 rule-based reward 训练模型」,改说「我们引入可验证奖励作为外部裁决,让模型从模式续写走向可检验推理」。后一种表述更清楚地揭示了方法的认识论位置。

第二,在设计新方法时,问自己认识论问题。设计一个新的训练方法时,可以问:这个方法引入了什么外部裁决?是在做结果判定还是过程检查?是在处理有规则可循的任务还是没有现成规则的任务?这些问题来自认识论哲学,能帮助研究者更清楚地理解自己方法的认识论位置,也可能启发新的工程方向。比如,如果发现现有方法都停在「结果判定」,可以问:能不能把外部裁决细化到「过程检查」?这个问题可能引导研究者设计出类似 Math-V2 verifier 的新方法。

第三,关注 AI 在认识论史上的位置。本书论证 AI 当前对应 18 世纪哲学从休谟到康德的那一步。这一步已经走过。下一步是什么?这个问题没有现成答案,但 AI 研究者的工作可能就是回答这个问题。研究者设计的下一个方法,可能就是认识论史上的下一步。这种历史意识能给工程工作赋予更深的意义。

给哲学研究者的建议

哲学研究者,特别是认识论或心智哲学方向的研究者,读到这里,已经看到了一个新的观察对象:工程化的认识系统。

读完本书,可以做什么?

第一,把 DeepSeek 论文作为认识论研究的案例材料。本书第 11 章建议哲学系认识论课程把 DeepSeek 论文作为必读材料。作为研究者,可以更进一步,把 DeepSeek 论文作为研究素材。研究者可以分析 R1-Zero 的 aha moment,看反思行为如何在奖励信号下自发出现,检验哲学理论对反思的解释。研究者可以分析 Math-V2 的 verifier,看自验证如何被训练出来,检验哲学理论对自我意识的理解。这些分析可以产生新的哲学论文。

第二,把 AI 作为认识论的实验对象。传统认识论以人类心灵为唯一观察对象,哲学家通过内省与思想实验来研究。AI 提供了一个可观察、可修改、可测试的认识系统。研究者可以设计实验:在 DeepSeek 模型上做某种修改,看修改后的模型行为变化,用这种变化检验认识论理论。这种实验哲学是传统认识论做不到的。

第三,参与 AI 的认识论设计。AI 研究者在设计训练方法时,往往专注于工程细节,缺少认识论层面的反思。哲学研究者可以参与这个设计过程,提供认识论层面的分析。比如,当一个团队在决定用结果奖励还是过程奖励时,哲学研究者可以指出:这两种选择对应休谟习惯与康德统觉的认识论差异,各有不同的认识论后果。这种参与能让哲学研究直接影响 AI 的工程实践。

重申一个建议

本书第 11 章提出了一个建议:哲学系认识论课程应当把 DeepSeek 系列论文(至少 R1 与 Math-V2)作为必读材料,与休谟、康德原典并置。

这里重申这个建议。

传统认识论课程以哲学原典为主。休谟的《人类理智研究》、康德的《纯粹理性批判》是认识论课程的必读材料。这些原典提供了认识论的概念框架与论证范例。但传统认识论课程缺少一个东西:可观察的认识系统。哲学家通过原典学习认识论概念,但这些概念的应用对象(人类心灵)无法被直接观察。哲学家只能通过内省与思想实验来检验概念,不能通过实验来检验。

DeepSeek 系列论文提供了这个缺少的东西。DeepSeek 是一个工程化的认识系统,它的每一个组件都可以被观察、修改、测试。哲学家可以把 DeepSeek 作为认识论的实验对象,检验休谟与康德的概念在 AI 上的表现。

把 DeepSeek 论文纳入认识论课程,是补充原典,不替代原典。原典提供概念框架,DeepSeek 提供实验对象。两者并置,能让认识论概念获得具体的工程对应物,帮助学生更深入地理解哲学概念。

这是把 AI 还给哲学的意思。AI 不只是工程对象或产业对象,AI 也是认识论对象。哲学家应当把 AI 纳入认识论研究,让哲学重新获得一个具体的观察对象。

本书的局限与开放问题

收束之前,需要诚实交代本书的局限与留下的开放问题。

第一个局限:本书只解读了 DeepSeek 一条路线。AI 学界有多个团队在做类似方向的研究,OpenAI、Anthropic、Google 等团队也在用可验证奖励、强化学习、形式化证明等方法训练推理模型。本书选择 DeepSeek 作为主线案例,是因为它的论文公开、路线清晰。其他团队的路线可能同样有认识论意义,本书没有展开。读者可以把本书的方法应用到其他团队的论文上,看是否能得到类似的认识论解读。

第二个局限:本书的哲学解读限于功能结构层面。本书的所有类比(GRPO 对应先验范畴、Lean 对应统觉、V4-Pro 对应统觉统一性等)都是功能结构层面的对应,不涉及本体论等同。这种限制是刻意的,因为本体论层面的论证涉及心灵哲学的核心争议,超出本书的范围。但读者应该意识到,功能结构层面的对应不能直接推出本体论层面的结论。AI 在功能结构上对应康德统觉,不意味着 AI 在本体论上有心灵。

第三个局限:本书的时序视角停在 2026 年 4 月。DeepSeek 的论文序列到 V4-Pro 为止。2026 年后续与 2027 年的论文,本书没有涉及。AI 的发展速度很快,本书的判断可能需要随着新论文的发布而调整。读者应该把本书的判断当作「截至 2026 年 4 月的判断」,不是「最终判断」。

第四个局限:本书没有处理 AI 伦理与价值匹配问题。本书专注于认识论解读,没有讨论 AI 的安全性、价值匹配、社会影响等问题。这些问题重要,但属于另一个领域。本书的边界声明里已经明确这一点,这里再次强调。

本书留下了几个开放问题。

第一个开放问题:AI 的认识论演进下一步是什么?本书论证 AI 当前对应 18 世纪哲学从休谟到康德的那一步。这一步已经走过。下一步对应认识论史的哪一个时刻?是康德之后的德国唯心主义(费希特、谢林、黑格尔)?是 20 世纪的分析哲学转向?是现象学(胡塞尔、海德格尔)?还是某种全新的、无法用现有哲学史定位的方向?这个问题没有现成答案,要等 AI 的后续发展与哲学家的解读。

第二个开放问题:AI 的认识论地位与心灵哲学的关系。本书论证 AI 在认识论意义上满足理性生物的最低条件。这个论证与心灵哲学的核心争议(功能主义 vs 生物自然主义、现象意识、感受质等)有什么关系?AI 的认识论地位是否足以推出某种心灵哲学立场?这个问题需要哲学家进一步探讨。

第三个开放问题:AI 与人类理性的关系。本书论证 AI 是「正在生成的理性生物的早期形态」。这个「早期形态」与人类理性生物的关系是什么?是平行关系(两种不同的理性生物)?是递进关系(AI 是人类理性的延伸)?是替代关系(AI 可能超越人类理性)?这个问题涉及 AI 伦理、人类未来、文明演进等重大议题,超出本书的范围,但读者可以带着本书的框架继续思考。

第四个开放问题:哲学如何回应 AI 的挑战。本书建议哲学系把 DeepSeek 论文纳入认识论课程。这只是第一步。更深的问题是:AI 的出现是否要求哲学本身发生变革?认识论是否需要从「以人类心灵为唯一对象」转向「以多种理性系统为对象」?哲学方法是否需要从「内省与思想实验」转向「内省 + 实验」?这些问题需要哲学界共同探讨。

这些开放问题构成了本书的延续。本书做了一件事,但这件事不是终点。AI 在继续发展,哲学在继续思考。两者的交叉才刚刚开始。

收束

本书到此收束。

本书做了一件事:把 DeepSeek 的 17 篇论文用休谟与康德的语言重新讲一遍,看这条路线在认识论史上对应哪一个时刻。

答案是:对应 18 世纪哲学从休谟到康德的那一步。

DeepSeek 从纯经验预训练,逐步引入外部裁决(GRPO)、形式化证明(Lean)、大规模 RL(R1)、过程可靠(Prover-V2 与 Math-V2)、Agent 任务(V3.2)、长程统一性(V4-Pro)。整个路线在认识论结构上重演了从休谟经验主义到康德先验转向的完整路径。

AI 在认识论史上的当前位置,就在这里。这一步已经走过。下一步是什么,要等论文出来再读。

本书不预测未来。本书只判断当前。


附录 A:DeepSeek 论文速查表

按时间线排序

序号 发布时间 论文标题 对应模型 本书章节
1 2024-01-05 DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek LLM 7B / 67B 第 1 章
2 2024-01-11 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models DeepSeekMoE 2B / 16B / 145B 第 2 章
3 2024-01-25 DeepSeek-Coder: When the Large Language Model Meets Programming DeepSeek-Coder 1.3B–33B 第 3 章
4 2024-02-05 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models DeepSeekMath 7B 第 4 章
5 2024-03-08 DeepSeek-VL: Towards Real-World Vision-Language Understanding DeepSeek-VL (本书未展开)
6 2024-05-07 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model DeepSeek-V2 236B / 21B 第 6 章
7 2024-05-23 DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data DeepSeek-Prover 第 6 章
8 2024-06-17 DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence DeepSeek-Coder-V2 第 3 章
9 2024-08-15 DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for RL and MCTS DeepSeek-Prover-V1.5 第 6 章
10 2024-12-13 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models DeepSeek-VL2 (本书未展开)
11 2024-12-27 DeepSeek-V3 Technical Report DeepSeek-V3 671B / 37B 第 6 章
12 2025-01-22 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-R1-Zero / R1 第 7 章
13 2025-04-30 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via RL for Subgoal Decomposition DeepSeek-Prover-V2 第 8 章
14 2025-11-27 DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning DeepSeekMath-V2 第 8 章
15 2025-12-02 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models DeepSeek-V3.2 / V3.2-Speciale 第 9 章
16 2026-04-24 DeepSeek V4 Preview Release(官方发布页) DeepSeek-V4 Preview 第 10 章
17 2026-04-26 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence DeepSeek-V4-Pro / V4-Flash 第 10 章
18 2026-04 DeepSeek-V4-Pro Model Card DeepSeek-V4-Pro 第 10 章

注:DeepSeek-VL(第 5 篇)与 DeepSeek-VL2(第 10 篇)是多模态支线论文,本书以认识论为主线,未展开多模态内容。读者若对多模态感兴趣,可自行阅读这两篇论文。

按认识论问题排序

认识论问题 对应论文 本书章节 锋利主张
纯经验主义的局限 DeepSeek LLM 第 1 章 C7
观念联想的工程化 DeepSeekMoE 第 2 章
结构化推理的萌芽 DeepSeek-Coder 系列 第 3 章
外部裁决的引入(先验范畴雏形) DeepSeekMath(GRPO) 第 4 章 SC3
过程检查的引入(统觉雏形) DeepSeek-Prover 系列 第 6 章 SC4
长上下文基础(想象力综合) DeepSeek-V2 与 V3 第 5 章
先验转向的工程化重现 DeepSeek-R1 第 7 章 SC1
过程可靠转向(统觉工程化) Prover-V2 与 Math-V2 第 8 章 SC5
反思判断力的工程化 DeepSeek-V3.2 第 9 章 SC7
统觉统一性的工程化 DeepSeek-V4-Pro 第 10 章 SC6
理性生物的早期形态 综合前 10 章 第 11 章 SC2、SC8

附录 B:术语对照表

哲学术语

术语 来源 最小定义 本书工程对应
印象 休谟《人类理智研究》 心灵在感觉瞬间接收到的强烈生动内容 训练数据中的每一个 token
观念 休谟《人类理智研究》 印象的微弱摹本,存储在心灵中可以随后调用 参数化存储的统计模式
观念联想三原则 休谟《人类理智研究》第三章 相似性、时空接近、因果关系 MoE 的路由机制(相似性匹配)
习惯 休谟《人类理智研究》 心灵在多次观察恒常联结后形成的预期 预训练模型的统计模式
因果必然性 休谟《人类理智研究》第四、五节 心灵加诸恒常联结之上的标签,找不到对应印象来源 预训练模型无法产生,需外部裁决
先验范畴 康德《纯粹理性批判》 心灵加诸经验之上的形式条件,不从经验中来 可验证奖励(GRPO)、形式化证明(Lean)
先天综合判断 康德《纯粹理性批判》 既不来自经验又不是分析命题但能扩展知识的判断 形式化证明(Lean 检查每一步)
统觉 康德《纯粹理性批判》 「我思」对一切表象的综合统一 verifier + generator(Math-V2)、子目标分解(Prover-V2)
统觉统一性 康德《纯粹理性批判》 「我思必须能伴随我的一切表象」 V4-Pro 的 1M token 上下文
想象力的综合 康德《纯粹理性批判》 把不同表象综合成整体的能力 V2 与 V3 的长上下文注意力机制
反思判断力 康德《判断力批判》 没有现成规则,从具体中寻找普遍的判断 V3.2 的 Agent 任务(侧栏触及)
规定判断力 康德《判断力批判》 有普遍规则可循的判断,把具体归入普遍 数学推理、代码生成、形式化证明

AI 术语

术语 英文 最小定义 本书哲学对应
预训练 Pre-training 在海量数据上做下一词预测训练 休谟式经验主义
监督微调 SFT(Supervised Fine-Tuning) 用指令-回答对训练模型按指令做事 改变输出格式,不增加推理能力
直接偏好优化 DPO(Direct Preference Optimization) 用偏好数据训练模型倾向更好的回答 优化偏好,不优化正确性
强化学习 RL(Reinforcement Learning) 用奖励信号优化模型策略 引入外部裁决
GRPO Group Relative Policy Optimization 群组内相对策略优化,省去价值模型 先验范畴的工程化
交叉熵损失 Cross-entropy Loss 衡量模型预测概率分布与真实 token 之间的差距 拟合的损失函数
梯度下降 Gradient Descent 沿着损失下降方向调整参数 优化的基本方法
概率分布 Probability Distribution 对每个可能输出给一个概率,加起来等于 1 模型预测的输出形式
MoE Mixture-of-Experts 稀疏激活架构,每个 token 只激活部分专家 观念联想的工程化
MLA Multi-head Latent Attention 多头潜在注意力,压缩 KV cache 改变模型内部结构
Lean Lean 4 证明助手,检查形式化证明是否符合逻辑规则 统觉雏形
RLPAF Reinforcement Learning from Proof Assistant Feedback 用证明助手反馈作为奖励信号 过程检查的外部裁决
RMaxTS RMaxTS(MCTS 变体) Monte-Carlo 树搜索变体,探索多条证明路线 证明搜索
verifier verifier 判断模型,检查证明是否有问题 统觉的工程化
generator generator 生成模型,产生证明 推理的生成
CoT Chain-of-Thought 思维链,模型展开的推理过程 推理行为的外在表现
aha moment aha moment R1-Zero 训练中自发出现反思行为的时刻 先验范畴激发推理的标志
DSA DeepSeek Sparse Attention DeepSeek 稀疏注意力,降低长上下文计算成本 改变模型内部结构
CSA Compressed Sparse Attention 压缩稀疏注意力 V4 混合注意力组件
HCA Heavily Compressed Attention 重度压缩注意力 V4 混合注意力组件
mHC Manifold-Constrained Hyper-Connections 流形约束超连接,增强残差连接 改变模型内部结构
Muon Muon optimizer Muon 优化器,更快收敛与更稳定训练 优化算法变种
Think Max Think Max V4-Pro 的最大推理投入模式 可调反思强度
Agent Agent 在多种环境中连续决策的任务 反思判断力的工程化
token token 大语言模型处理文本的基本单位 印象的单位
损失函数 Loss Function 衡量模型输出与想要输出之间差距的函数 拟合的衡量标准
优化 Optimization 调整参数让损失尽量小 拟合的核心动作
高维空间 High-dimensional Space 模型参数构成的空间 拟合的场所

附录 C:延伸阅读分级清单

初级(不需要数学或哲学背景)

适合想对 AI 与哲学有基本了解的读者。这些材料不涉及复杂技术细节或哲学论证,提供基础概念与背景。

AI 入门

  1. 《AI 3.0》,梅兰妮·米歇尔著,中译本。AI 复杂性背景,帮助理解大模型在 AI 史上的位置。本书第 1 章与第 6 章的背景参考。

  2. DeepSeek 官方博客与发布页。DeepSeek 团队在官方渠道发布的模型介绍与技术解读,比论文更易读。适合在读论文前先看官方介绍建立直觉。

  3. 3Blue1Brown 的神经网络系列视频(YouTube / B 站有中文字幕)。用可视化方式讲清楚神经网络、注意力机制、Transformer 的基本原理。适合补充第 0 章与第 1 章的技术直觉。

哲学入门

  1. 《哲学的故事》,威尔·杜兰特著,中译本。哲学史入门,包含休谟与康德的章节。适合在读原典前先建立背景。

  2. 《大问题:简明哲学导论》,罗伯特·所罗门著,中译本。哲学导论,用问题导向的方式介绍认识论等核心领域。

中级(需要一些数学或哲学背景)

适合读完本书后想深入的读者。这些材料需要一定基础,但不需要专业训练。

DeepSeek 论文

  1. DeepSeek-R1 论文(arXiv:2501.12948)。本书第 7 章的核心论文。建议先读这篇,理解 R1-Zero 的 aha moment 与多阶段训练。

  2. DeepSeekMath 论文(arXiv:2402.03300)。本书第 4 章的核心论文。理解 GRPO 的具体机制。

  3. DeepSeekMath-V2 论文(arXiv:2511.22570)。本书第 8 章的核心论文之一。理解 verifier + generator 的自验证机制。

  4. DeepSeek-Prover 论文(arXiv:2405.14333)。本书第 6 章的核心论文。理解 Lean 形式化证明的基本流程。

哲学原典

  1. 《人类理智研究》,休谟著,关文运译,商务印书馆。本书前 4 章的哲学锚点。建议重点读第二、三、四、五节。

  2. 《未来形而上学导论》,康德著,商务印书馆。康德的入门著作,比《纯粹理性批判》更易读。适合在读《批判》前先读这本。

  3. 《纯粹理性批判》,康德著,邓晓芒译,人民出版社(或蓝公武译,商务印书馆)。本书第 5–10 章的哲学锚点。建议重点读先验感性论、先验分析论(特别是统觉章)。

高级(需要专业背景)

适合想做深入研究或交叉研究的读者。这些材料需要专业训练。

AI 技术深入

  1. DeepSeek-V3 Technical Report(arXiv:2412.19437)。本书第 6 章的核心论文。理解 MLA、MoE、multi-token prediction 等关键技术。

  2. DeepSeek-V4 论文(arXiv:2606.19348)。本书第 10 章的核心论文。理解 CSA/HCA、mHC、Muon 等前沿技术。

  3. DeepSeek-Prover-V2 论文(arXiv:2504.21801)。本书第 8 章的核心论文之一。理解子目标分解与 cold-start 数据合成。

  4. DeepSeek-V3.2 论文(arXiv:2512.02556)。本书第 9 章的核心论文。理解 DSA 与大规模 Agent 任务合成。

  5. Lean 4 官方文档与教程(lean-lang.org)。想深入理解 Lean 形式化证明的读者。包含 Theorem Proving in Lean 4 等教程。

哲学深入

  1. 《判断力批判》,康德著,邓晓芒译,人民出版社。本书第 9 章侧栏触及的反思判断力概念的原典。想深入理解 Agent 任务与判断力关系的读者可以读。

  2. 《人性论》,休谟著,关文运译,商务印书馆。休谟更彻底的经验主义著作。比《人类理智研究》更详细,适合想深入理解休谟的读者。

  3. 亨利希(Dieter Henrich)关于康德统觉的论文。康德统觉章的经典解读,适合想深入理解统觉概念的读者。涉及统觉统一性的学派争论。

  4. 塞尔(John Searle)的中文房间论证("Minds, Brains, and Programs",1980)。心灵哲学经典论证,与本书第 11 章 SC2 主张直接相关。反对功能主义的经典论证。

  5. 查尔默斯(David Chalmers)的「面对意识问题」("Facing Up to the Problem of Consciousness",1995)。现象意识与困难问题的经典论证。与本书第 11 章对意识与感受质的边界声明相关。

跨学科参考

  1. 《哥德尔、艾舍尔、巴赫》,侯世达著,中译本。形式系统与心智哲学的经典跨学科著作。本书序章的叙事风格参考。

  2. 皮尔士(Charles Sanders Peirce)的实用主义著作。皮尔士的探究理论与本书的「AI 作为认识论观察对象」主张有内在关联。适合想从美国实用主义传统理解 AI 的读者。

  3. 奎因(W.V.O. Quine)的《经验主义的两个教条》。20 世纪分析哲学对经验主义的核心批判。与本书 SC3(休谟经验主义在 AI 中不够)有结构呼应。