2025.3.21-OpenAI 发布3个音频模型API

1、OpenAI 发布3个音频模型API

1）语音识别模型（Speech-to-text）： • gpt-4o-transcribe（精准版） • gpt-4o-mini-transcribe（轻量版）

相较之前的Whisper模型，准确率有明显提升，尤其是在有噪音、口音明显或语速变化快的环境下。 2）文字转语音模型（Text-to-speech）： • gpt-4o-mini-tts（支持自定义声音风格）

在线体验（网站使用了Teenage Engineering硬件的设计风格，非常漂亮）：https://www.openai.fm/

2、Reve Image：新的AI绘画模型

美学、提示词遵循都在线，个人觉得跟Flux Dev的水平差不多。PS. 下周会有个新的绘画模型发布，我已经在内测了，效果非常好，可以替代Recraft成为新的绘画之王。

3、Claude支持联网搜索

目前仅限付费且美国地区的用户。

4、Gemini 2.0 Flash(Image generation)更新

降低了安全设置，屏蔽的频率变低；修复了多轮对话导致图片质量变低的问题；支持Rerun；

5、Pika新特效预告

很好玩，能直接给视频加特效，例如让汽车飞起来，让地面出现裂缝。Pika堪称AI视频的Snapchat。