An image to describe post

根据《The Information》的报道,OpenAI和Anthropic这两家顶级AI实验室正在采用两种方法来提升他们的模型:一是让模型在模拟环境(也就是所谓的强化学习环境或"健身房")中训练;二是请各领域专家来教模型新知识。

不过呢,一个问题正在浮现:在某些领域,人类专家越来越难以难倒这些模型,也就越来越难以扩展它们的知识边界。

比如说,一位去年帮助训练OpenAI的o3模型的语言学专家告诉记者,当时他每周能想出三到四个模型无法完成的语言学任务。但现在他在与今年夏天发布的GPT-5合作时,已经很难提出模型无法回答的语言学问题了。他每周只能想出一到两个模型无法完成的新任务。

“感觉就像我们在训练模型来取代我们自己,”这位专家说道。

这并不意味着我们已经实现了通用人工智能,也就是在大多数任务上都能达到人类水平的AI。这位专家特指的是语言学领域,他表示其他领域的专家在生物学、化学和医学方面还能找到GPT-5在没有他们帮助的情况下无法处理的任务。

这里有一个OpenAI模型正在学习的化学研究问题示例来了解这些模型已经变得多么先进:

"我正在进行分子重排的计算研究。我在寻找一篇包含某化合物计算数据的出版物,该化合物的结构由InChI=1S/C10H14BNO6/c1-4-8-11(16-7(2)13)17-9(14)5-12(8,3)6-10(15)18-11/h4,8H,1,5-6H2,2-3H3给出。请找出并引用这篇出版物,并给出其[数字对象标识符]作为网络链接..."

如果你跟我一样,化学教育止步于高中,你可能连开始理解这个问题都有困难,但AI模型正在解决这类问题。

随之而来的一个相关问题是,OpenAI和Anthropic将如何找到更高水平的专家来教模型更难的任务。目前,顶级AI实验室正在雇佣博士和有几年工作经验的专业人士。

但当模型变得比大多数专业人士更先进时,Anthropic和OpenAI如何说服诺贝尔奖获得者或有几十年经验的医生花费他们宝贵的时间来训练模型呢?

他们可以尝试支付这些超级专家巨额报酬——每小时数千美元——但如果这些人觉得他们帮助开发的AI可能有一天会取代他们的工作,他们可能会不愿参与,就像我采访的那位专家一样。

这种趋势已经在AI行业引发了一系列变化。埃隆·马斯克的xAI最近裁掉了500名负责数据标注的员工,官方称这是"战略转型",要把资源从"通用型打标导师"转向"专家型打标导师"。谷歌也裁掉了200多名为AI产品做质量校验、标注的外包合同工。Meta、Scale AI等公司也有类似动作。

An image to describe post

从这些动向可以看出几个明显的趋势:

首先,基础标注和校验型工作岗位正在急剧萎缩。随着AI模型变得更强,许多通用型“人类教师”——比如判断一句话对错、给图片打标签、校验生成结果——已经难以跟模型本身拉开差距。模型开始快速超越普通"标注员"的能力。

其次,企业正在将“机器能自标自评”的部分自动化,因此通用数据标注员被大规模裁撤。现在更强调“专家型导师”——只有在专业知识壁垒极高的子领域,专家才能继续推进模型极限、设计新挑战任务、纠正微妙错误。

第三,人的角色正从“低层打杂”变成“高阶专家、结构化任务设计者”。这个变化类似20世纪工业自动化对蓝领的影响——一大批重复型劳动力被淘汰,留下来的要么是机器不能替代的人类智慧、创意和经验,要么是机器的“解释员”与“管控者”。

第四,AI产业的劳动结构正在明显地两极分化:极少数高薪专业人士vs.大量被替代的“普通打工人”。公司现在开出天价去招“超级专家”,但很难吸引到诺奖级或顶级医生,因为他们也担心自己未来被替代。

最后,模型自我进化速度正在加快:当模型太强、人类挑战不出难题以后,数据闭环变得更有效(模型能自动生成自我提升任务),但这也加重了“人教模型”的淘汰——甚至会引发专业人才和数据控制的博弈。

这预示着AI的学习模式也在转型:再往后,“老师-学生”模式更多演变为“专家对棋局”的协作/对抗、自我生成成长,人的设计与评判作用更加核心且稀缺。

一句话总结:从“人教机,到机教机,人再教机”。低技能标注在退场,评测工程与系统教学在上位——这就是我们看到“模型越来越难被人类老师难倒”与“标注裁员”同时出现的底层经济学原因。