1、OpenAI 发布3个音频模型API
1)语音识别模型(Speech-to-text): • gpt-4o-transcribe(精准版) • gpt-4o-mini-transcribe(轻量版)
相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。 2)文字转语音模型(Text-to-speech): • gpt-4o-mini-tts(支持自定义声音风格)
在线体验(网站使用了Teenage Engineering硬件的设计风格,非常漂亮):https://www.openai.fm/
2、Reve Image:新的AI绘画模型
美学、提示词遵循都在线,个人觉得跟Flux Dev的水平差不多。PS. 下周会有个新的绘画模型发布,我已经在内测了,效果非常好,可以替代Recraft成为新的绘画之王。
在线使用:https://preview.reve.art/app/explore
3、Claude支持联网搜索
目前仅限付费且美国地区的用户。
4、Gemini 2.0 Flash(Image generation)更新
降低了安全设置,屏蔽的频率变低;修复了多轮对话导致图片质量变低的问题;支持Rerun;
免费使用地址:https://aistudio.google.com/app/prompts/new_chat
5、Pika新特效预告
很好玩,能直接给视频加特效,例如让汽车飞起来,让地面出现裂缝。Pika堪称AI视频的Snapchat。