2024.11.18-今天没什么新闻

1、LLaVA-o1：能推理的视觉多模态模型

不依赖思维链提示，能自主多阶段推理，11B的模型超越了Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

2、In-Context LoRA：一系列好玩的工作流

In-Context LoRA适用于Flux模型，可以实现AI换衣、logo迁移、商品效果图、四格漫画等各种效果。Github中有各个效果的ComfyUI工作流。

3、Qwen2.5-Turbo支持100万上下文

除Gemini（200万）外目前最长上下文，只能通过API使用，没有开放模型。

4、GUI智能体的黎明：Claude 3.5 Computer Use的案例研究

这篇论文通过精心设计的多领域、多软件任务探索和评估了Claude 3.5的实际应用能力。案例在Github中有提供。