AIGC Weekly #114 | AIGC Weekly

封面提示词：A white angel with a halo holding up a giant sword in the cosmic mountains, nebulae and clouds --chaos 8 --ar 16:9 --quality 2 --style raw --sref 2554670775 --profile ch85yes --sw 320 --stylize 640

上周整个大活，我用 AI 写了个工具，帮大家更低成本、更可控的用 AI 生成漂亮的网页！优雅的解决上个版本提示词不可控和有时候没那么漂亮的问题。

上周精选✦

Open AI发布了三个新的音频模型 API

Open AI 上周开了一个直播发布了三个关于音频的模型，两个转录模型一个TTS。

新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型，与原始的 Whisper 模型相比，在单词错误率和语言识别及准确性方面都有所改进。

新的语音转文本模型能够更好地捕捉语音的细微差别，减少误识别，并提高转录的可靠性，特别是在涉及口音、嘈杂环境和不同语速的挑战性场景中。

还推出了一个新的 gpt-4o-mini-tts 模型，具有更好的可操控性。这是开发者首次能够“指导”模型不仅说什么，还包括如何说。

新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构，并在专门的音频数据集上进行了广泛的预训练。

改进了蒸馏技术，使得知识能够从最大的音频模型转移到更小、更高效的模型中。利用先进的自我对弈方法，我们的蒸馏数据集有效地捕捉了真实的对话动态，复制了真实的用户与助手互动。

另外还集成了以强化学习（RL）为主的范式，将转录准确性推向了最先进的水平。这种方法显著提高了精度并减少了幻觉。

gpt-4o-transcribe 为 0.6 美元/分钟，gpt-4o-mini-transcribe 为 0.3 美元/分钟，gpt-4o-mini-tts 为 0.015 美元/分钟。

他们用来演示新的TTS的这个网页很好玩可以试试，做的也非常精致openai.fm。

另外 Open AI 还发布了 O1-Pro 的 API，但这个 600 美元（4300人民币）百万输出的模型谁敢用啊

An image to describe post