1、Meta开源PE-AV:SAM Audio的核心引擎
PE-AV能结合音频和视频,实现声音检测和视频理解。
Github:https://github.com/facebookresearch/perception_models
2、Mistral发布Mistral OCR 3
提升识别准确率,支持识别手写内容和扫描文件。未开源,需要通过API使用。
官方介绍:https://mistral.ai/news/mistral-ocr-3
3、FlashPortrait:无限时长虚拟人
类似Wan2.2 Animate,提供人物照片+参考视频,使用视频里的动作驱动人物生成视频。FlashPortrait的优点是支持无限时长且速度更快。但是我觉得效果不如Wan2.2 Animate,Wan2.2 Animate是更像参考视频的结构,FlashPortrait生成的视频结构更像人物照片。
模型:https://huggingface.co/FrancisRing/FlashPortrait
527426468-20f34576-0689-4be2-99b1-aee550f07641.mp4
4、MedASR:谷歌开源的医疗领域ASR模型
专注于医疗领域的语音识别模型。
模型:https://huggingface.co/google/medasr
5、Anthropic开源Bloom:LLM评估工具
用于评估LLM生成行为的偏差。研究人员指定一种行为,然后Bloom量化LLM在自动生成的场景中的频率和严重程度。 官方介绍:https://www.anthropic.com/research/bloom