2025.1.13-LLaVA-Mini:高效视觉理解模型

1、LLaVA-Mini:高效视觉理解模型 计算消耗更小、响应更快、支持的视频长度更长,可以在24G显卡上处理3小时长度的视频。 Github:‣

image.png

2、vdr-2b-multi-v1:开源多语言Embedding模型

模型训练才用的到。

官方介绍:https://huggingface.co/blog/vdr-2b-multilingual

模型:https://huggingface.co/llamaindex/vdr-2b-multi-v1

3、nv-ingest:结构化提取文档信息

英伟达开源的工具,能处理大规模的PDF、Word、PPT、图像文档,并结构化输出,不过需要2台A100。

Github:https://github.com/NVIDIA/nv-ingest

4、关于o1 pro的使用体验

国外一名博主使用o1 pro的体验,核心观点:

o1 不是聊天模型,不适合来回对话式交互;

一次性提供大量的上下文,明确说明想要什么(What),而不是怎么做(How)

能一次性完整生成多个文件,幻觉少,医疗诊断方面有优势