1、FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github:‣ 模型:https://huggingface.co/FireRedTeam
2、Zonos:开源TTS
可商用。官网一直生成失败,没测出效果。
在线体验:https://playground.zyphra.com/audio
官方介绍:https://www.zyphra.com/post/beta-release-of-zonos-v0-1
Github:https://github.com/Zyphra/Zonos
3、训练LLM在潜空间内推理 这篇论文我觉得很有意义,让LLM在潜空间推理,而不是用人类的语言推理。 CoT是用人类的语言推理,思考过程用人类的语言表达出来,然后用作上下文继续推理。潜空间推理,则是用计算机的语言推理,用代表语义和语法的向量来推理,初始是token经过Embedding后的向量,再包括Transformer每一层的中间结果。 这种推理更像是人脑的思考过程,就像有时候我思考问题,不会详细的想出每一个字,而是“先这样、再这样、然后这样……”地想。 论文:https://arxiv.org/abs/2502.05171 模型:https://huggingface.co/tomg-group-umd/huginn-0125 Github:https://github.com/seal-rg/recurrent-pretraining
4、Anthropic经济指数
Anthropic发布的一篇文章,介绍AI对经济的影响。
文章PDF:https://assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf
5、HuggingFace发布的AI Agent课程
Github:https://github.com/huggingface/agents-course
6、阿里云上线DeepSeek R1 API
免费送100万 token,有效期180天。