2025.12.21-今天没什么新闻

1、Meta开源PE-AV：SAM Audio的核心引擎

PE-AV能结合音频和视频，实现声音检测和视频理解。

Github：https://github.com/facebookresearch/perception_models

2、Mistral发布Mistral OCR 3

提升识别准确率，支持识别手写内容和扫描文件。未开源，需要通过API使用。

官方介绍：https://mistral.ai/news/mistral-ocr-3

3、FlashPortrait：无限时长虚拟人

类似Wan2.2 Animate，提供人物照片+参考视频，使用视频里的动作驱动人物生成视频。FlashPortrait的优点是支持无限时长且速度更快。但是我觉得效果不如Wan2.2 Animate，Wan2.2 Animate是更像参考视频的结构，FlashPortrait生成的视频结构更像人物照片。

模型：https://huggingface.co/FrancisRing/FlashPortrait

527426468-20f34576-0689-4be2-99b1-aee550f07641.mp4

4、MedASR：谷歌开源的医疗领域ASR模型

专注于医疗领域的语音识别模型。

模型：https://huggingface.co/google/medasr

5、Anthropic开源Bloom：LLM评估工具

用于评估LLM生成行为的偏差。研究人员指定一种行为，然后Bloom量化LLM在自动生成的场景中的频率和严重程度。官方介绍：https://www.anthropic.com/research/bloom