1、MG-LLaVA:LLaVA系列目前最强
结合多粒度视觉流(包括低分辨率、高分辨率和以对象为中心的特征)来增强模型的视觉处理能力,在3.8B到34B尺寸的视觉模型上,均是开源最佳。
Github:https://github.com/phoenixz810/mg-llava
模型:https://huggingface.co/PhoenixZ/MG-LLaVA

2、GPTPdf:使用多模态LLM分析PDF文件
实现步骤是:
1)使用PyMuPDF库,解析出所有非文本区域,并做好标记(用于省token)
2)使用多模态模型(如 GPT-4o)进行解析,得到markdown文件
费用大概每页0.013美元,我选择用免费的Gemini,200万上下文。
Github:https://github.com/CosmosShadow/gptpdf
3、LongVA:能处理较长视频的视觉模型
一次性可以分析2000帧视频,在7B大小的模型中目前性能最佳。