2025.1.13-LLaVA-Mini：高效视觉理解模型

1、LLaVA-Mini：高效视觉理解模型 计算消耗更小、响应更快、支持的视频长度更长，可以在24G显卡上处理3小时长度的视频。 Github：‣

2、vdr-2b-multi-v1：开源多语言Embedding模型

模型训练才用的到。

3、nv-ingest：结构化提取文档信息

英伟达开源的工具，能处理大规模的PDF、Word、PPT、图像文档，并结构化输出，不过需要2台A100。

4、关于o1 pro的使用体验

国外一名博主使用o1 pro的体验，核心观点：

o1 不是聊天模型，不适合来回对话式交互；

一次性提供大量的上下文，明确说明想要什么(What),而不是怎么做(How)

能一次性完整生成多个文件，幻觉少，医疗诊断方面有优势