半夜我打开电脑,等待在 openai 的直播面前,期待 gpt5 能带来一些不一样的东西,比如多模态、更 agentic 的功能…

An image to describe post

提升肯定是有的,但是不至于像奥特曼发的那么夸张,他在发布前发了一个(好像是)《星球大战》中的死星。这不就是在表明 gpt5 是一个阶跃式的变化而不是渐进式升级么,sam 的营销还是杠杠的,这一波悬念直接引发一大堆人热议。

An image to describe post

现在看来就是纯粹操作 hhh

先讲一下直播里说了啥

gpt5 这一次的亮点首先是统一系统与访问策略,其实就是把之前 openai 的所有模型都放到了一起,简称“all in one”。

An image to describe post

也就是说,你使用 gpt5,就不用纠结我下一个任务要使用什么模型了(不过在 chatgpt 里你现在也选不了了,其他模型选项已经没了)。

官方是这么介绍的,GPT‑5 由一个“高效主模型”、一个“更深层思考模型(GPT‑5 thinking)”和一个“实时路由器”组成;路由器基于任务复杂度、工具需求、显式意图(如提示里说“认真思考”)等信号决定是否调用思考模型。达到配额后自动切换至 mini 版本。

今天应该已经开始向所有用户推送了(除了企业用户与教育用户),Pro 用户可选 GPT‑5 pro(更长思考、更高可靠性)。

第二个重点展示的就是编码能力,这也是我平时用 gpt 比较多的用途(claude 第一😁),直播里的得分是 SWE‑bench Verified 74.9%、Aider Polyglot 88%;前端生成的美学与实现质量显著改善,内部偏好测试中相较 o3 的前端产出被偏好 70%

他们展示了好几个任务,反正生成的效果是挺好的,比如“生成一个伯努利效应相关的教学页面”,还有奥特曼在 x 上分享的“生成一个音乐制作网站”。

An image to describe post

买家秀是挺不错的(应该基本上所有公司都这样),不过奥特曼那个 claude 最近更新的 opus 4.1 也能一次成型做出来。

An image to describe post

其他方面就还有指令遵循与工具调用,τ²‑bench(电信工具调用场景)96.7% 表明多轮、多工具串并行执行更稳定,能在调用前/间输出计划/进度前言

然后上下文方面,API 端总上下文 400k(输入 ≤272K推理/输出 ≤128K);自研 OpenAI‑MRCR 与 BrowseComp Long Context 评测显示长文检索与跨轮推理显著提升。

写作方面官方也是说到了新高度,写作上更能把抽象意图转为具节奏感与意象的文本。

An image to describe post

他们自己是这么评价的:GPT‑5 的回复以更强烈的结尾、清晰的意象和引人注目的隐喻(“一个不复存在的国家的黑色旗帜”、“京都的钟声将黄昏滚下山丘”)完成了更大的情感弧线,建立了生动的文化和地域感。GPT‑4o 的版本遵循更可预测的结构和韵律,只叙述而不展示(“她哭泣但不倾诉”)。

开发者比较关心的大概就是价格,这一次的价格不算很高,输入是 4o 的一半也比 o3 低,更不用和 claude 的比了。

An image to describe post

不过对于一些大型项目,可能缓存(cache)是关键降本杠杆(上次 manus 也分享了他们团队构建 agent 时候降本的手段就是 kv-cache),缓存的 input 价格也是低于其他两个,不过输出就还好。

很搞笑的是,我都怀疑直播上的柱状图是不是 gpt5 生成的,52.8 的高度会大于 69.1,有点抓马。

An image to describe post

在发布会里,奥特曼还邀请了一位癌症患者用户讲述她确诊一周内面对多份病理结果时,如何用 chatgpt 把检查报告的专业术语翻译为可理解的语言并且梳理关键信息和准备要问医生的问题。她还谈到在治疗路径(例如是否放疗)存在分歧时,如何借助 ChatGPT权衡利弊、获得“更有把握的决策”。

An image to describe post

这一桥段就是想表达 OpenAI 已经把“健康”列为能力提升的重点之一,并且官方也定位“GPT‑5 是迄今在健康问答上表现最好的模型”。

An image to describe post

在我看直播的会议,看到也有人评论,她母亲确诊的时候也做了同样的事情。

官方说的是,ChatGPT 不是替代医疗专业人员,而是定位为帮助你理解结果、准备就诊问题、权衡方案的伙伴。就像一位观众说他是医生,他也做过实验,GPT 的回答会根据你的提示词的细微变化而变化,所以如果让它去替代医疗人员,不是很准确,但你可以去让它辅助你解决你的一些疑问。

再看下 LMArena 榜单数据

几乎就是在直播的同一时间,这个榜单就放出来测试结果。简单介绍一下 LMArena 这个榜单。它是一个社区发起的,就是 UC 伯克利他们一个团队发起的一个匿名的榜单。

An image to describe post

简单来说,你去上面提问,它会有两个匿名的模型生成的回答,再让你去投票。相当于用盲测、众包投票的方式,让用户自己去感觉哪个回答好去投票。所以这是大家投出来的榜单,而不是专业机构搞的一些测评什么的。

An image to describe post

这个项目的初衷就是让大家在真实对话场景中同时和两个匿名模型聊天(A/B对比),用“更像用户、少像考试”的方式评出谁更好。如果你想试用一下 GPT-5,它这里有一个 Direct Chat,可以去临时的使用这个模型,看一下它的效果,这个就不是匿名的。

然后它有一个对比,我们刚刚匿名比较的是 Battle 模式,在对比模式里面,可以把 GPT-5 和 Gemini 2.5 Pro 去进行对比。

这个在什么时候会用到呢?比如你想去充 ai 会员,但是你只能充一个,哪个可能更值得充。你可以自己就来试用一下体验哪个更好,然后再决定充哪个会员。

在这个网站上,你可以看到所有主流大语言模型的排行,这是各项排名的总览表,可以看到 GPT-5 在所有领域都获得了第一名,或者是并列第一。

在总榜单中,我们可以看到很多分类。其实质上,它们都是“文本”这个栏目的各种切片。它会将文本类型分为不同的主题,把对话也划分为不同的类型主题,然后按照标签各自算分。

举例来说,在“Battle”模式下,我们可能问了五次问题,每次问题都会打一次分。这五个问题的平均分就是它的总体评分。每个问题可能又是一个独立的主题,而每一个主题也都有各自的评分。

An image to describe post

我们再切换到细分榜单,像通用文本对话、前端网页应用生成,这个榜单显示 GPT-5 的文本得分比 Gemini 2.5 Pro 大概高出 20 分。

GPT-5 的区间在 1470 ~ 1492,而 Gemini 2.5 Pro 的区间是 1454 ~ 1466。两个区间不重叠,因此在统计学上,GPT-5 应该属于显著领先。

An image to describe post

下面这个 WebDev 页面显示了前端网页生成能力的评估,其中 GPT-5 的分数区间是 1466 ~ 1495,而 Gemini 2.5 Pro 大约是 1395 ~ 1412。这两个区间没有重叠,所以 GPT-5 依然显著领先。不过代码我一般比较喜欢用 Claude,但是这个上面没有看到 Claude 4.1 Opus 的排名,不知道加进来实力如何。

An image to describe post

第三部分是带图的多模态对话榜单,GPT-5、Gemini 2.5 Pro 以及 GPT-4o 互相重叠,因此并列第一。不过,高分部分仍是 GPT-5 略胜一筹,这可能是因为投票票数较少,大家对新模型可能带有一层滤镜,从而给它打出了高分,使得在统计上 95% 的显著性这里会高一些。

An image to describe post

当然,就像我们刚才说的,它其实是基于人类偏好,更接近于一种产品体验的排序,而不是基于绝对事实的准确率或学术基准成绩。比如说,一般用户更多的是我们普通人,可能对某些专业领域的知识没有那么深刻的见解。然后我们去体验、去投票,得出的结果就是我们觉得它听起来似乎更好,但不一定是正确的,也会给它去投票。

不过我在想,像这种榜单有没有刷榜的可能?

比如说,OpenAI 他们家的模型会加一些文本水印进去,那能不能通过这个水印去判断这个模型是不是自己加的,然后去刷榜,每一次打分的时候就投票给它?有没有这种可能性?(不过也只是好奇,不针对谁hhh)

早期测试人员的测评

榜单这个东西只是数据显示,具体使用如何,还是要看测试人员的感受和心得。Matt Shumer 早在 7 月 21 日就拿到了 gpt-5 的测试,他觉得这是让 vibe Coding 毕业生走向真正应用的模型。

换句话说,GPT-5 在编程上会有很大的飞跃。

An image to describe post

他最初使用时,感觉就是更快、更锐利,但这也只是相对于 GPT-4.1 或 Claude 4 Opus 的渐进式提升。在常规写作、一般问答和常见办公任务中的提升并不大,表现得更快、更稳,而非质的飞跃。所以,他认为其更像是 GPT-4.2,而非 GPT-5。

不过,这个看法的拐点在他花了一个小时就做出了一个产品原型,本来以为需要数周时间。

作者和团队讨论了一个前端高度集成加后端 GPU 弹性伸缩和生命周期管理的复杂新产品,然后他把规格文档丢给 GPT-5,一个小时就做出了可用原型,他的同事直接震惊了。

An image to describe post

他们认为 GPT-5 对于前端代码的掌握能力非常强,所以他们测试了 GPT-4o、GPT-4.5、O3 和 GPT-5 在克隆 ChatGPT 用户界面前端能力方面的表现。

An image to describe post

大家可以观察一下 GPT-5 对于 ChatGPT 这个用户界面,以及一些图标的还原。

不过,作者也提到了GPT-5 的短板,它的显式深挖搜索能力不如 O3。O3 会持续地往下钻取,深挖一件事情,但GPT-5 很容易就停留在一个层级,不会继续深入。

  • 隐式检索:写代码过程中查文档/库接口
  • 显式深挖:一定要把事实挖到颗粒度最细

针对情感创作类文本,许多作者更偏好GPT-4.5(似乎很多人都认为,用GPT-4.5 写出来的文章AI 感没那么强)。

第三是GPT-5 对提示词的结构比较敏感,不是说它指令遵循能力差,而是特别敏感。有时候,当你使用一些复杂的提示词时,它很容易自作主张。因此,你需要添加一些约束,明确不允许它追加的任务,不然它就很容易跑偏。可能是有点太发散了?

像这两天我也看到了很多人真实使用的一些体验和感受,包括作者他自己也是,一开始感觉很平淡,但是后面他有一些惊喜,形成了一个反差。

为什么会出现这样子的一个反差呢?可能是由于“统一系统和自动路由”的设置,在日常轻任务时路由更偏向及时答复的模型,主观差距不是很大;但当你遇到复杂的任务,需要调用思考工具链,优势就会集中释放,因为它能帮你调配任务所需要的模型。

另一个团队也获得了早期的测试资格——Every,我订阅了他们的 newsletter(挺推荐的),然后第一时间就收到了邮件推送,包括我当天的直播也是该团队组织大家一起在 zoom 看的。

An image to describe post

他们的感受是,ChatGPT 适合日常使用,例如它能极快地给出结构清晰的答案,并且在快速回答和深度思考之间自动切换。但是,对于多代理和长时间托管式的编程,它可能不如 claude Code 那样能长时间自主运行。GPT-5 更像是一个稳健且听话的结对程序员,而非完全放手的总代理。

在编程方面,团队分的很细。

首先是结对编程,像我们平时用 Cursor 那样子,它的优点是能够找 bug,精确地小步实现,细节上能做到强迫症好评,对于间距、状态、边界条件的把控都比较好。缺点就是我们刚刚说的,不擅长长时间的自主托管,容易停下来等你点继续,在 Codex/Cursor 里的独立执行能力不如 Claude code。

但是,它似乎不是很稳定,因为团队的分歧比较大。有的人觉得它擅长后端任务,但是有人又说很容易卡死,而且开箱体验不如 Claude。这可能反映出对于不同的任务,它的稳定性还不是很强。

第二个部分是针对前端的 UI。

他们认为 GPT-5 能够做出更像人写的 UI,而且在交互排版方面经常一次性通过,成功率非常高。他们将其与 Opus 4 和 4.1 进行了对比:像小游戏,GPT-5 的作品不容易崩,但是会有点无聊,而 4.1 的可玩性更好;在音乐制作 App 方面,GPT-5 更可用,但 Opus 4 的设计更好看。

An image to describe post

在研究检索方面,显式深挖方面与 Matt Shumer 团队想法是一致的,团队更偏好 o3,因为 o3 会持续深挖直到给出最小事实单位。

网络上大家的评语

马斯克也是第一时间就来维护自家模型的地位,疯狂 repost 称赞 grok4 比 gpt5 厉害的帖子。

An image to describe post

在 gpt 发布的时候,榜单都是和自家模型来对比,像这个 Human's last exam 就是自己和自己以前对比,这个如果不进步就说不过去了。

An image to describe post

然后有人就把之前 grok 推出时候的榜单给拿出来对比,也难怪 gpt5 只和自己对比,这一下又给 elon 抓到把柄了。

An image to describe post

elon 借机直接就说 grok4heavy 老早就比现在的 gpt5 还要好了,而且现在还会继续进步,马斯克这拉踩的功夫还是挺绝的。

An image to describe post

然后我去一些论坛里面调查了一些用户的使用感受。

在大众的想法了,下一代模型,表示更大的上下文、真正会自己办事的智能体、像人的语音、摄影师般的图像,一切都更快、更强、更懂你。

有期望就有落差,在Reddit的r/OpenAI版块,一个标题为"GPT-5 is horrible"的帖子迅速获得了3200多个赞和1400多条评论。这个数字本身就说明了问题——当一个批评帖能获得如此高的关注度时,显然触动了很多人的神经。用户们的抱怨直截了当:"回复变短了,不够充分,AI味更重了,个性更少了,Plus用户一小时就能达到使用上限……而且我们连选择使用其他模型的机会都没有了。"

An image to describe post

这个数字本身就说明了问题——当一个批评帖能获得如此高的关注度时,显然触动了很多人的神经。

用户们的抱怨直截了当:“回复变短了,不够充分,AI味更重了,个性更少了,Plus用户一小时就能达到使用上限.….而且我们连选择使用其他模型的机会都没有了。”

这种失望情绪在整个社交媒体上蔓延。许多人感到被背叛了——OpenAI曾在6月承诺GPT-4o会在GPT-5发布后继续可用,新模型只是作为额外选项添加进来。

但现实却是,Plus用户被强制使用GPT-5,每周限制200条消息,而且无法切换回熟悉的旧模型。这是在逼你充钱呀…

技术社区更关注的是 GPT-5 在推理能力、科学任务等方面的进步是否真正突破。

Hacker News上一位用户认为,当前我们只是训练软件去”复制和重混固定时间点的人类知识”,神经网络在各领域都会遇到收益递减,因此各家模型能力会日益趋同。

这种观点与一些 Reddit 技术版块形成呼应:他们质疑GPT-5 能否在长上下文、复杂推理上比GPT-4.5提高超过 5%,有人甚至猜测任何显著改进都可能是因为“训练数据泄露“而非算法突破。

An image to describe post

第一个很搞笑,我点开去看,我还以为是因为这个模型能力,她和她男朋友吵架争辩,结果是把GPT-4o当成自己的男朋友,现在模型能力变差了,她觉得她失去了她的男朋友🤣。

An image to describe post

当然并非所有声音都是负面的。有用户表示:"GPT-4令人印象深刻,但GPT-5让我感觉它从工具变成了伙伴。"

不过,最近看到的评价大多是负面的,我觉得主流科技媒体可能会进一步放大这种负面印象,从而导致负面评价形成一个飞轮效应,越来越多。我认为还是可以自己去试用一下(比如在LMArena 里面,其APl价格下降,许多软件都有免费试用),了解它真实的使用感受,因为每个人的任务使用情境都不同。