封面提示词:A white angel with a halo holding up a giant sword in the cosmic mountains, nebulae and clouds --chaos 8 --ar 16:9 --quality 2 --style raw --sref 2554670775 --profile ch85yes --sw 320 --stylize 640

上周整个大活,我用 AI 写了个工具,帮大家更低成本、更可控的用 AI 生成漂亮的网页!优雅的解决上个版本提示词不可控和有时候没那么漂亮的问题。

上周精选✦

Open AI发布了三个新的音频模型 API

Open AI 上周开了一个直播发布了三个关于音频的模型,两个转录模型一个TTS。

新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型,与原始的 Whisper 模型相比,在单词错误率和语言识别及准确性方面都有所改进。

新的语音转文本模型能够更好地捕捉语音的细微差别,减少误识别,并提高转录的可靠性,特别是在涉及口音、嘈杂环境和不同语速的挑战性场景中。

还推出了一个新的 gpt-4o-mini-tts 模型,具有更好的可操控性。这是开发者首次能够“指导”模型不仅说什么,还包括如何说。

新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的音频数据集上进行了广泛的预训练。

改进了蒸馏技术,使得知识能够从最大的音频模型转移到更小、更高效的模型中。利用先进的自我对弈方法,我们的蒸馏数据集有效地捕捉了真实的对话动态,复制了真实的用户与助手互动。

另外还集成了以强化学习(RL)为主的范式,将转录准确性推向了最先进的水平。这种方法显著提高了精度并减少了幻觉。

gpt-4o-transcribe 为 0.6 美元/分钟,gpt-4o-mini-transcribe 为 0.3 美元/分钟,gpt-4o-mini-tts 为 0.015 美元/分钟。

他们用来演示新的TTS的这个网页很好玩可以试试,做的也非常精致openai.fm

另外 Open AI 还发布了 O1-Pro 的 API,但这个 600 美元(4300人民币)百万输出的模型谁敢用啊

An image to describe post