1、Ovi:开源版Veo 3 能生成视频的同时生成音频,嘴型能和语音保持同步,能生成音效。 模型:https://huggingface.co/chetwinlow1/Ovi
2、Ming-UniAudio:蚂蚁开源的音频多模态模型
蚂蚁同时开源了音频多模态、视频多模态模型,音频多模态支持ASR和TTS。
模型:https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
3、PASTA:图像生成强化学习方法
谷歌的强化学习方法,与用户协作,根据用户的偏好不断生成更符合用户偏好的图片,有点像Midjourney的个性化。
博客介绍:https://research.google/blog/a-collaborative-approach-to-image-generation/
nano banana国内直连版
我做的小产品。无需VPN,填写key就能用,操作简单,适合小白。买了可以给别人用,搭个人情也不错。仅需5分钱1张图,欢迎体验和购买。
使用地址:https://gordensun.github.io/Shenbi_Banana/
我的公众号:AI加速派
