2025.2.11-FireRedASR:小红书开源的语音识别模型

1、FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github:‣ 模型:https://huggingface.co/FireRedTeam

2、Zonos:开源TTS

可商用。官网一直生成失败,没测出效果。

在线体验:https://playground.zyphra.com/audio

官方介绍:https://www.zyphra.com/post/beta-release-of-zonos-v0-1

Github:https://github.com/Zyphra/Zonos

3、训练LLM在潜空间内推理 这篇论文我觉得很有意义,让LLM在潜空间推理,而不是用人类的语言推理。 CoT是用人类的语言推理,思考过程用人类的语言表达出来,然后用作上下文继续推理。潜空间推理,则是用计算机的语言推理,用代表语义和语法的向量来推理,初始是token经过Embedding后的向量,再包括Transformer每一层的中间结果。 这种推理更像是人脑的思考过程,就像有时候我思考问题,不会详细的想出每一个字,而是“先这样、再这样、然后这样……”地想。 论文:https://arxiv.org/abs/2502.05171 模型:https://huggingface.co/tomg-group-umd/huginn-0125 Github:https://github.com/seal-rg/recurrent-pretraining

4、Anthropic经济指数

Anthropic发布的一篇文章,介绍AI对经济的影响。

文章PDF:https://assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf

5、HuggingFace发布的AI Agent课程

Github:https://github.com/huggingface/agents-course

6、阿里云上线DeepSeek R1 API

免费送100万 token,有效期180天。