2024.11.18-今天没什么新闻

1、LLaVA-o1:能推理的视觉多模态模型

不依赖思维链提示,能自主多阶段推理,11B的模型超越了Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

论文:https://arxiv.org/abs/2411.10440

image.png

2、In-Context LoRA:一系列好玩的工作流

In-Context LoRA适用于Flux模型,可以实现AI换衣、logo迁移、商品效果图、四格漫画等各种效果。Github中有各个效果的ComfyUI工作流。

Github:https://github.com/ali-vilab/In-Context-LoRA

image.png

3、Qwen2.5-Turbo支持100万上下文

除Gemini(200万)外目前最长上下文,只能通过API使用,没有开放模型。

在线体验:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo

4、GUI智能体的黎明:Claude 3.5 Computer Use的案例研究

这篇论文通过精心设计的多领域、多软件任务探索和评估了Claude 3.5的实际应用能力。案例在Github中有提供。

论文:https://arxiv.org/abs/2411.10323

Github:https://github.com/showlab/computer_use_ootb