1、Omnilingual ASR:Meta开源的语音识别模型 错误率别Whisper v3更低,支持1600种语言(包括几种中国方言,粤语、闽南语等),模型包括300M、1B、3B、7B四个大小,7B大小为目前开源最佳,运行大约需要15G显存,同时开源了数据集。 Github(含模型下载):https://github.com/facebookresearch/omnilingual-asr 官方介绍:https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/ 在线使用:https://huggingface.co/spaces/facebook/omniasr-transcriptions
2、Ming-UniAudio:蚂蚁开源的原生音频多模态模型 功能非常齐全,语音理解、生成语音、编辑语音,尤其是编辑语音能实现各种各样的效果,包括在语音中插入文字、删除文字、修改文字、修改口音(东北话、四川话)、去除噪音、添加背景音乐或音效等。16B总参数,3B运行参数,本地能跑。 项目网站:https://xqacmer.github.io/Ming-Unitok-Audio.github.io/ 模型:https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B Github:‣
3、DiffRhythm2:开源音乐模型
效果一般,可能还比不上Suno 3.5的水平。话说Suno v5之后,AI音乐就只有Suno和其他了,Suno遥遥领先。
模型:https://huggingface.co/ASLP-lab/DiffRhythm2
4、百度开源视觉多模态LLM
ERNIE-4.5-VL-28B-A3B-Thinking,类似Qwen3 VL的30B版本。
模型:https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
5、Claude使用案例 Claude官方出的使用案例,涵盖工作、生活、教育、销售等多个领域。 官网:https://claude.com/resources/use-cases

6、谷歌新发布了11月版本的Agent白皮书 新版本内容更详实,视角更宏观。 地址:https://kaggle.com/whitepaper-introduction-to-agents