1、Kimi开源K2.5 原生视觉多模态模型,支持分析图片。1000B总参数,32B激活参数。各项评分都非常高。在Kimi官网可以使用。据反馈前端能力极其优秀,接近Gemini 3 Pro。 模型:https://huggingface.co/moonshotai/Kimi-K2.5
2、Z-Image满血版发布 语义理解更强,更具多样性,支持LoRA、ControlNet和微调。这是基座模型,没有经过修饰,需要结合LoRA等才会有更好的效果,所以常规出图效果是比不上Turbo版本的。 模型:https://huggingface.co/Tongyi-MAI/Z-Image 在线使用:https://modelscope.cn/aigc/imageGeneration?tab=default

3、DeepSeek开源DeepSeek-OCR-2 AI像人类一样阅读图片。不再是传统的“从左到右、从上到下”的阅读顺序,而是先整体分析布局结构,拆分出要详细阅读的块,然后再开始详细阅读。这样做可以保持语义关联,上下文更连贯,而且性能更高。
更重要的是,DeepSeek-OCR-2弃用了CLIP,改用Qwen2-0.5B,验证了使用LLM架构作为统一多模态编码器的可行性,为后续的多模态模型做好了技术准备。
模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

4、阿里发布Qwen3-Max-Thinking
未开源,Qwen系列最强模型。
官方介绍:https://qwen.ai/blog?id=qwen3-max-thinking
5、Claude与Slack、Figma等办公软件打通
可以直接通过Claude创建这些软件的消息/设计图/流程图等,然后可以直接发送。包括Figma、Canva、Slack等多款办公软件。