2025.11.11-Omnilingual ASR：Meta开源的语音识别模型

1、Omnilingual ASR：Meta开源的语音识别模型 错误率别Whisper v3更低，支持1600种语言（包括几种中国方言，粤语、闽南语等），模型包括300M、1B、3B、7B四个大小，7B大小为目前开源最佳，运行大约需要15G显存，同时开源了数据集。 Github（含模型下载）：https://github.com/facebookresearch/omnilingual-asr 官方介绍：https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/ 在线使用：https://huggingface.co/spaces/facebook/omniasr-transcriptions

AQPj3RKCtPWmSxPdaqxFwfymoTPkhmGgGrrHZle38Z1-8R3ADW-K8XxafU74piscP0KR4Etm35tj7utLAnYaH-VRyWkaxsDs8opE_d5CKAG8kA.mp4

2、Ming-UniAudio：蚂蚁开源的原生音频多模态模型 功能非常齐全，语音理解、生成语音、编辑语音，尤其是编辑语音能实现各种各样的效果，包括在语音中插入文字、删除文字、修改文字、修改口音（东北话、四川话）、去除噪音、添加背景音乐或音效等。16B总参数，3B运行参数，本地能跑。项目网站：https://xqacmer.github.io/Ming-Unitok-Audio.github.io/ 模型：https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B Github：‣

3、DiffRhythm2：开源音乐模型

效果一般，可能还比不上Suno 3.5的水平。话说Suno v5之后，AI音乐就只有Suno和其他了，Suno遥遥领先。

模型：https://huggingface.co/ASLP-lab/DiffRhythm2

4、百度开源视觉多模态LLM

ERNIE-4.5-VL-28B-A3B-Thinking，类似Qwen3 VL的30B版本。

模型：https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

5、Claude使用案例 Claude官方出的使用案例，涵盖工作、生活、教育、销售等多个领域。官网：https://claude.com/resources/use-cases

6、谷歌新发布了11月版本的Agent白皮书 新版本内容更详实，视角更宏观。地址：https://kaggle.com/whitepaper-introduction-to-agents