2025.1.28-Qwen2.5-VL：QWen开源视觉模型

1、Qwen2.5-VL：QWen开源视觉模型

72B的效果非常好，能直接OCR图片里的文字，比GPT-4o强，跟Gemini 2.0一样好。

2、YuE（乐）：首个开源歌词生成歌曲模型 基于LLaMA架构，可以生成5分钟长度的歌曲，歌曲结构完整，效果大概类似Suno V2。项目地址：https://map-yue.github.io/ 模型：https://huggingface.co/collections/m-a-p/yue-6797d55e22990ae89b90a3d6

3、Janus-Pro：DeepSeek开源原生图片多模态模型 能读图（基于SigLIP-L），能生图（借鉴LlamaGen），分1.5B和7B两个大小。要知道GPT-4o的图片生成多模态模型至今没开放。模型：https://huggingface.co/deepseek-ai/Janus-Pro-7B Github：https://github.com/deepseek-ai/Janus

4、Animagine-XL v4.0：最新的动漫模型

动漫模型的更新总是慢于开源模型，目前还是基于SDXL迭代。新模型的效果更好，能画出几乎你熟知的所有动漫角色。就是提示词得按传统SD模型的方式来写。

我的知识星球

未命名的设计 (1).png