1、XTTS v2:能克隆声音的TTS
个人认为是目前语音克隆的最佳开源方案。
HeyGen只能翻译视频,不能让视频中的人物任意说话,但是开源方案已经能实现:让一个明星的采访视频,变成他讲述任意小故事的视频,声音是他的声音,嘴型也能对上。
在线体验:https://huggingface.co/spaces/coqui/xtts
Github:https://github.com/coqui-ai/tts
效果演示:
2、MusicGen支持生成立体声音乐
MusicGen 新增 MusicGen Stereo 模型,可以生成立体声音乐,双声道(左右耳朵声音不一样),效果很带感。
在线colab(推荐):MusicGen Colab 最长2分钟,我的参数是musicgen-stereo-medium+MultiBand Diffusion(更占显存),只能生成24秒音频,再长会爆显存。不用MultiBand Diffusion可以生成长音乐。
抱抱脸(只能15秒):https://huggingface.co/spaces/facebook/MusicGen Github:https://github.com/facebookresearch/audiocraft/blob/main/docs/MUSICGEN.md
效果演示:
3、GLaMM:能标记出物体的多模态LLM
类似GPT-4V,但是能根据问题,标记出图片中的目标物体。