1、NextStep-1:阶跃开源的图片模型
2个模型,分别是图片生成模型和图片编辑模型。
模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc
3、m3-agent:带记忆的智能体 字节开源的智能体,能把多模态数据也转化成记忆,包括文本、音频、图片、视频数据。分别微调了2个模型用于记忆和执行,记忆模型基于Qwen 2.5 omni,执行模型基于Qwen 3 32B。 Github:https://github.com/ByteDance-Seed/m3-agent

3、StableAvatar:音频驱动生成视频 图片+音频,生成唱歌或说话视频,支持生成无限时长的视频。 Github:https://github.com/Francis-Rings/StableAvatar
476572586-eac3ec34-1999-4a41-81fc-5f0a296a44b5.mp4
我的公众号:AI加速派
