2023.11.9-XTTS v2：能克隆声音的TTS

1、XTTS v2：能克隆声音的TTS

个人认为是目前语音克隆的最佳开源方案。

HeyGen只能翻译视频，不能让视频中的人物任意说话，但是开源方案已经能实现：让一个明星的采访视频，变成他讲述任意小故事的视频，声音是他的声音，嘴型也能对上。

效果演示：

2、MusicGen支持生成立体声音乐

MusicGen 新增 MusicGen Stereo 模型，可以生成立体声音乐，双声道（左右耳朵声音不一样），效果很带感。

在线colab（推荐）：MusicGen Colab 最长2分钟，我的参数是musicgen-stereo-medium+MultiBand Diffusion(更占显存)，只能生成24秒音频，再长会爆显存。不用MultiBand Diffusion可以生成长音乐。

效果演示：

3、GLaMM：能标记出物体的多模态LLM

类似GPT-4V，但是能根据问题，标记出图片中的目标物体。