2025.9.20-Grok发布Grok 4 Fast

1、Grok发布Grok 4 Fast

多模态,2M上下文,性价比高。目前在Grok、X、OpenRouter上可以使用。

image.png

2、MiMo-Audio-7B:小米开源的音频多模态模型

能理解音频,能生成语音,官方宣称SOTA,但是线上体验流程不完整,暂时没法评估实际能力。

模型:https://huggingface.co/collections/XiaomiMiMo/mimo-audio-68cc7202692c27dae881cce0

3、TTD-DR:基于扩散过程的深度研究智能体 谷歌发布的Deep researcher智能体,最大的特色是把研究报告的写作建模为一个扩散过程,由初稿逐渐被打磨成高质量的最终版本,像AI绘画的过程一样。 官方介绍:https://research.google/blog/deep-researcher-with-test-time-diffusion/

image.png

4、实测Wan-Animate 实测效果非常好。 项目地址:https://humanaigc.github.io/wan-animate/

HF在线体验:https://huggingface.co/spaces/Wan-AI/Wan2.2-Animate

魔搭在线体验:https://modelscope.cn/studios/Wan-AI/Wan2.2-Animate

wan2.2.mp4

我的公众号:AI加速派

qrcode_for_gh_5672a278e0a2_258.jpg