1、OpenAI发布GPT-4o:原生多模态模型
o代表的是“omni model”,omni的意思是无所不包,omni model指的就是文字、语音、图片、视频统一的模型,这是跟GPT-4V最大的区别,跟Gemini和Reka Core是类似的。
目前GPT-4o相比GPT-4的能力提升并不明显(因为词表的问题,部分中文情况可能更差,例如问“留下些什么吧”),但是速度快2倍,API价格降低50%,原生多模态的实时交互能力对体验的提升巨大。免费用户可用,目前仅开放了文字和图片输入、文字输出,后续逐步开放语音和视觉能力。
官方详细介绍:https://openai.com/index/hello-gpt-4o/
下图是我画的GPT-4 和 GPT-4o 语音对话的流程对比:
Whisper语音转文字的缺点:忽略语音的音调和情绪、忽略背景音、识别不出多个讲话者; OpenAI TTS的缺点:不能输出笑声、不能输出带有情绪的语音、不能唱歌; GPT-4o弥补了缺点,直接接收全面的语音信息,能输出带感情的声音和歌声。

2、腾讯开源了腾讯混元DiT 支持中英双语的DiT模型,支持长文本,支持多轮对话修图(与ChatGPT类似) 项目地址:https://dit.hunyuan.tencent.com 官网排队:https://image.hunyuan.tencent.com Github:https://github.com/Tencent/HunyuanDiT

3、RLHF Workflow:在线版本的RLHF
开源的在线RLHF的实现方案。
Github:https://github.com/RLHFlow/Online-RLHF