1、Grok发布Grok 4 Fast
多模态,2M上下文,性价比高。目前在Grok、X、OpenRouter上可以使用。

2、MiMo-Audio-7B:小米开源的音频多模态模型
能理解音频,能生成语音,官方宣称SOTA,但是线上体验流程不完整,暂时没法评估实际能力。
模型:https://huggingface.co/collections/XiaomiMiMo/mimo-audio-68cc7202692c27dae881cce0
3、TTD-DR:基于扩散过程的深度研究智能体 谷歌发布的Deep researcher智能体,最大的特色是把研究报告的写作建模为一个扩散过程,由初稿逐渐被打磨成高质量的最终版本,像AI绘画的过程一样。 官方介绍:https://research.google/blog/deep-researcher-with-test-time-diffusion/

4、实测Wan-Animate 实测效果非常好。 项目地址:https://humanaigc.github.io/wan-animate/
HF在线体验:https://huggingface.co/spaces/Wan-AI/Wan2.2-Animate
魔搭在线体验:https://modelscope.cn/studios/Wan-AI/Wan2.2-Animate
我的公众号:AI加速派
