封面提示词:Gravity and Space --ar 16:9 --profile 27bzgly --stylize 1000
上周精选✦
Open AI 发布 o3、o4 mini、4.1、4.1 mini、4.1 nano
Open AI 上周又是一大波发布,现在的这个模型系列的名字太复杂了,我现在自己都经常说说错或者打错,别说那些看新闻比较少的朋友了。
4.1系列是用来替代4o的,包括GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano,主要的升级是有了100万的上下文长度和更强的代码能力,在指令遵循、上下文理解和 Agents 驱动上都比 4o 好。
目前GPT-4.1只在API中提供,4o的
我自己也用Figma的MCP试了一下,搞了一个天梯图,发现是比4o好多了起码能用了,但是在前端代码上还是跟Claude 3.7和V3 0324差很多。
GPT‑4.1 的中位数查询比 GPT‑4o 便宜 26%,而 GPT‑4.1 nano 是Open AI最便宜、最快的模型。
相较于4.1这种被谷歌逼迫发的模型更新,o3和o4 mini这个确实强。
这次的o3和o4 mini能够自主使用并组合 ChatGPT 内的所有工具——包括搜索网络、用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
尤其出圈的是视觉推理能力,除了其他简单的图像处理技术外,还允许o3和o4 mini还支持裁剪、放大和旋转,而且这些能力是原生支持的,无需依赖单独的专业模型。
比如根据一个没有啥标志的图片找到这个图片拍摄的位置,这个是一般人都无法做到的,非常惊艳。
o3 在包括 Codeforces、SWE-bench(无需构建特定于模型的自定义脚手架)和 MMMU 在内的基准测试中创造了新的 SOTA。
它非常适合需要多面分析且答案可能并不立即显而易见的复杂查询。在分析图像、图表和图形等视觉任务方面表现尤为出色。外部专家的评估显示,在困难的现实任务中,o3 比 OpenAI o1 减少了 20%的重大错误。
而且直接调用 o3 生成图片的时候效果会比 4o 更好一些,尤其是图片信息需要推理或者搜索的时候。
最后Open AI还发布了一个跟Claude Code类似的在终端里面运行的代码工具,而且直接开源了。
Codex CLI 专为那些已经习惯终端生活的开发者打造,它提供 ChatGPT 级别的推理能力,同时具备实际运行代码、操作文件以及迭代的功能——所有这些都在版本控制之下。主要特点是:
- 零设置——只需带上你的 OpenAI API 密钥,它就能直接运行
- 全自动审批,通过运行在网络禁用和目录沙盒中的方式确保安全可靠
- 多模态 — 传入截图或图表以实现功能