2025.3.2-olmOCR：可能是目前最好的开源OCR模型

1、olmOCR：可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：https://github.com/allenai/olmocr 模型：https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1 在线使用：https://olmocr.allenai.org/

2、PhotoDoodle：照片涂鸦 仅通过文本提示词，即可往写实照片里添加涂鸦元素，实现虚实结合的图片效果。在线体验：https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU Github：https://github.com/showlab/PhotoDoodle

3、基于DeepSeek R1的RAG

开源。Github：https://github.com/skypilot-org/skypilot/tree/master/llm/rag

4、Scribe：语音识别模型

ElevenLabs推出的语音识别模型，宣传准确率最高。

官方介绍：https://elevenlabs.io/blog/meet-scribe

我的知识星球

未命名的设计 (1).png