2025.1.28-Qwen2.5-VL:QWen开源视觉模型

1、Qwen2.5-VL:QWen开源视觉模型

72B的效果非常好,能直接OCR图片里的文字,比GPT-4o强,跟Gemini 2.0一样好。

在线使用:https://chat.qwenlm.ai/

模型:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

2、YuE(乐):首个开源歌词生成歌曲模型 基于LLaMA架构,可以生成5分钟长度的歌曲,歌曲结构完整,效果大概类似Suno V2。 项目地址:https://map-yue.github.io/ 模型:https://huggingface.co/collections/m-a-p/yue-6797d55e22990ae89b90a3d6

1KgXdshjWwEpsECV.mp4

3、Janus-Pro:DeepSeek开源原生图片多模态模型 能读图(基于SigLIP-L),能生图(借鉴LlamaGen),分1.5B和7B两个大小。要知道GPT-4o的图片生成多模态模型至今没开放。 模型:https://huggingface.co/deepseek-ai/Janus-Pro-7B Github:https://github.com/deepseek-ai/Janus

image.png

4、Animagine-XL v4.0:最新的动漫模型

动漫模型的更新总是慢于开源模型,目前还是基于SDXL迭代。新模型的效果更好,能画出几乎你熟知的所有动漫角色。就是提示词得按传统SD模型的方式来写。

模型及在线使用:https://civitai.com/models/1188071

GiWI73WbIAARYC3.jfif

我的知识星球

未命名的设计 (1).png