2024.6.30-今天没什么新闻

1、MG-LLaVA:LLaVA系列目前最强

结合多粒度视觉流(包括低分辨率、高分辨率和以对象为中心的特征)来增强模型的视觉处理能力,在3.8B到34B尺寸的视觉模型上,均是开源最佳。

Github:https://github.com/phoenixz810/mg-llava

模型:https://huggingface.co/PhoenixZ/MG-LLaVA

Untitled

2、GPTPdf:使用多模态LLM分析PDF文件

实现步骤是:

1)使用PyMuPDF库,解析出所有非文本区域,并做好标记(用于省token)

2)使用多模态模型(如 GPT-4o)进行解析,得到markdown文件

费用大概每页0.013美元,我选择用免费的Gemini,200万上下文。

Github:https://github.com/CosmosShadow/gptpdf

3、LongVA:能处理较长视频的视觉模型

一次性可以分析2000帧视频,在7B大小的模型中目前性能最佳。

Github:https://github.com/evolvinglmms-lab/longva