2025.10.4-Ovi：开源版Veo 3

1、Ovi：开源版Veo 3 能生成视频的同时生成音频，嘴型能和语音保持同步，能生成音效。模型：https://huggingface.co/chetwinlow1/Ovi

2、Ming-UniAudio：蚂蚁开源的音频多模态模型

蚂蚁同时开源了音频多模态、视频多模态模型，音频多模态支持ASR和TTS。

3、PASTA：图像生成强化学习方法

谷歌的强化学习方法，与用户协作，根据用户的偏好不断生成更符合用户偏好的图片，有点像Midjourney的个性化。

nano banana国内直连版

我做的小产品。无需VPN，填写key就能用，操作简单，适合小白。买了可以给别人用，搭个人情也不错。仅需5分钱1张图，欢迎体验和购买。

我的公众号：AI加速派