1、微软VASA-1:肖像生成视频
提供人物头像图片和音频,由音频驱动生成同步嘴型和表情的视频。比阿里的Emo多了3D的能力,通模,能实时渲染,目前效果最好,肯定是不会开源了。缺点是只能生成头部视频,不能生成半身视频,直播场景使用的话,把头部和半身融合效果不稳定,也需要额外的计算资源。
项目介绍:https://www.microsoft.com/en-us/research/project/vasa-1/
twittervid.com_indigo11_102c73.mp4
2、Mistral正式发布Mixtral 8x22B
目前的开源最佳,同时发布了Instruct版本。
官方介绍:https://mistral.ai/news/mixtral-8x22b/
模型地址:https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Mistral系列模型 Mistral Large:闭源,他家最强的模型,接近GPT-4 Mistral Next:闭源,传言是新架构的模型 Mistral Medium:闭源,大致对应千问1.5 72B的能力 Mixtral 8x22B:目前开源最佳 Mistral Small:即Mixtral 8x7B,最早的开源MoE模型 Mistral Tiny:即Mistral 7B,7B最佳基座
3、Stability AI发布Stable Diffusion 3
DiT架构,普通用户只能通过付费API使用,仅对部分公司授权模型。开源不再。
在线免费使用:https://sdxlturbo.ai/stable-diffusion3
官方介绍:https://stability.ai/news/stable-diffusion-3-api
申请API:https://platform.stability.ai/account/keys

4、“电动爹”来了