2024.6.30-今天没什么新闻

1、MG-LLaVA：LLaVA系列目前最强

结合多粒度视觉流（包括低分辨率、高分辨率和以对象为中心的特征）来增强模型的视觉处理能力，在3.8B到34B尺寸的视觉模型上，均是开源最佳。

Untitled

2、GPTPdf：使用多模态LLM分析PDF文件

实现步骤是：

1）使用PyMuPDF库，解析出所有非文本区域，并做好标记（用于省token）

2）使用多模态模型（如 GPT-4o）进行解析，得到markdown文件

费用大概每页0.013美元，我选择用免费的Gemini，200万上下文。

3、LongVA：能处理较长视频的视觉模型

一次性可以分析2000帧视频，在7B大小的模型中目前性能最佳。