1、ideogram v3发布
如果这周OpenAI没发布GPT-4o的图片编辑能力,ideogram v3绝对是大新闻。我提前内测了一周,这个模型的能力非常好。主要有几个提升点: 1)整体绘画质量提升非常高,对语义的理解也非常好,在真人Elo排行上排第一 2)新增支持风格参考 3)Remix效果大大提升 模型有安全性检查,但是比GPT-4o和Midjourney要宽松的多,非常适合图片转绘。
2、阿里开源Qwen2.5-Omni-7B
GPT-4o低配版,多模态LLM,支持语音聊天和视频聊天。
模型:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
3、阿里开源Wan 2.1控制模型
视频版ControlNet,支持Canny、Depth、Pose、MLSD等多种模式。
模型:https://huggingface.co/alibaba-pai/Wan2.1-Fun-1.3B-Control
4、OpenAI SDK开始支持MCP
官方文档:https://openai.github.io/openai-agents-python/mcp/
我的知识星球