1、olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github:https://github.com/allenai/olmocr 模型:https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1 在线使用:https://olmocr.allenai.org/
2、PhotoDoodle:照片涂鸦 仅通过文本提示词,即可往写实照片里添加涂鸦元素,实现虚实结合的图片效果。 在线体验:https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU Github:https://github.com/showlab/PhotoDoodle
3、基于DeepSeek R1的RAG
开源。Github:https://github.com/skypilot-org/skypilot/tree/master/llm/rag
4、Scribe:语音识别模型
ElevenLabs推出的语音识别模型,宣传准确率最高。
官方介绍:https://elevenlabs.io/blog/meet-scribe
我的知识星球