1、LLaVA-Mini:高效视觉理解模型 计算消耗更小、响应更快、支持的视频长度更长,可以在24G显卡上处理3小时长度的视频。 Github:‣

2、vdr-2b-multi-v1:开源多语言Embedding模型
模型训练才用的到。
官方介绍:https://huggingface.co/blog/vdr-2b-multilingual
模型:https://huggingface.co/llamaindex/vdr-2b-multi-v1
3、nv-ingest:结构化提取文档信息
英伟达开源的工具,能处理大规模的PDF、Word、PPT、图像文档,并结构化输出,不过需要2台A100。
Github:https://github.com/NVIDIA/nv-ingest
4、关于o1 pro的使用体验
国外一名博主使用o1 pro的体验,核心观点:
o1 不是聊天模型,不适合来回对话式交互;
一次性提供大量的上下文,明确说明想要什么(What),而不是怎么做(How)
能一次性完整生成多个文件,幻觉少,医疗诊断方面有优势