2023.11.9-XTTS v2:能克隆声音的TTS

1、XTTS v2:能克隆声音的TTS

个人认为是目前语音克隆的最佳开源方案。

HeyGen只能翻译视频,不能让视频中的人物任意说话,但是开源方案已经能实现:让一个明星的采访视频,变成他讲述任意小故事的视频,声音是他的声音,嘴型也能对上。

在线体验:https://huggingface.co/spaces/coqui/xtts

Github:https://github.com/coqui-ai/tts

效果演示:

XTTS v2.mp4

2、MusicGen支持生成立体声音乐

MusicGen 新增 MusicGen Stereo 模型,可以生成立体声音乐,双声道(左右耳朵声音不一样),效果很带感。

在线colab(推荐):MusicGen Colab 最长2分钟,我的参数是musicgen-stereo-medium+MultiBand Diffusion(更占显存),只能生成24秒音频,再长会爆显存。不用MultiBand Diffusion可以生成长音乐。

抱抱脸(只能15秒):https://huggingface.co/spaces/facebook/MusicGen Github:https://github.com/facebookresearch/audiocraft/blob/main/docs/MUSICGEN.md

效果演示:

MusicGen.mp4

3、GLaMM:能标记出物体的多模态LLM

类似GPT-4V,但是能根据问题,标记出图片中的目标物体。

项目地址:https://mbzuai-oryx.github.io/groundingLMM/

Github:https://github.com/mbzuai-oryx/groundingLMM