2025.3.2-olmOCR:可能是目前最好的开源OCR模型

1、olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github:https://github.com/allenai/olmocr 模型:https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1 在线使用:https://olmocr.allenai.org/

2、PhotoDoodle:照片涂鸦 仅通过文本提示词,即可往写实照片里添加涂鸦元素,实现虚实结合的图片效果。 在线体验:https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU Github:https://github.com/showlab/PhotoDoodle

image.png

3、基于DeepSeek R1的RAG

开源。Github:https://github.com/skypilot-org/skypilot/tree/master/llm/rag

4、Scribe:语音识别模型

ElevenLabs推出的语音识别模型,宣传准确率最高。

官方介绍:https://elevenlabs.io/blog/meet-scribe

我的知识星球

未命名的设计 (1).png