2024.5.14-GPT-4o：原生多模态

1、OpenAI发布GPT-4o：原生多模态模型

o代表的是“omni model”，omni的意思是无所不包，omni model指的就是文字、语音、图片、视频统一的模型，这是跟GPT-4V最大的区别，跟Gemini和Reka Core是类似的。

目前GPT-4o相比GPT-4的能力提升并不明显（因为词表的问题，部分中文情况可能更差，例如问“留下些什么吧”），但是速度快2倍，API价格降低50%，原生多模态的实时交互能力对体验的提升巨大。免费用户可用，目前仅开放了文字和图片输入、文字输出，后续逐步开放语音和视觉能力。

下图是我画的GPT-4 和 GPT-4o 语音对话的流程对比：

Whisper语音转文字的缺点：忽略语音的音调和情绪、忽略背景音、识别不出多个讲话者； OpenAI TTS的缺点：不能输出笑声、不能输出带有情绪的语音、不能唱歌； GPT-4o弥补了缺点，直接接收全面的语音信息，能输出带感情的声音和歌声。

Untitled

2、腾讯开源了腾讯混元DiT 支持中英双语的DiT模型，支持长文本，支持多轮对话修图（与ChatGPT类似）项目地址：https://dit.hunyuan.tencent.com 官网排队：https://image.hunyuan.tencent.com Github：https://github.com/Tencent/HunyuanDiT

Untitled

3、RLHF Workflow：在线版本的RLHF

开源的在线RLHF的实现方案。