1、LLaVA-o1:能推理的视觉多模态模型
不依赖思维链提示,能自主多阶段推理,11B的模型超越了Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
论文:https://arxiv.org/abs/2411.10440
2、In-Context LoRA:一系列好玩的工作流
In-Context LoRA适用于Flux模型,可以实现AI换衣、logo迁移、商品效果图、四格漫画等各种效果。Github中有各个效果的ComfyUI工作流。
Github:https://github.com/ali-vilab/In-Context-LoRA
3、Qwen2.5-Turbo支持100万上下文
除Gemini(200万)外目前最长上下文,只能通过API使用,没有开放模型。
在线体验:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
4、GUI智能体的黎明:Claude 3.5 Computer Use的案例研究
这篇论文通过精心设计的多领域、多软件任务探索和评估了Claude 3.5的实际应用能力。案例在Github中有提供。