1、LivePortrait:面部视频合成
提供一张角色参考+一段面部视频参考,即可合成该角色的面部视频。目前开源效果最佳,尤其适用于创建表情包。再搭配上克隆语音,恶搞经典影视剧太容易了。
项目地址:https://liveportrait.github.io/
Github:https://github.com/KwaiVGI/LivePortrait
在线Colab:https://github.com/camenduru/LivePortrait-jupyter
ComfyUI节点:https://github.com/shadowcz007/comfyui-liveportrait
效果演示:来自@huanggou
twittervid.com_huanggou7_ef8bb8.mp4
2、FunAudioLLM:语音识别模型和语音合成模型
FunAudioLLM是阿里通义团队发布的用于打通人类和LLM语音交流的框架,核心包含2个模型:
· SenseVoice:语音识别模型(ASR)
· CosyVoice:语音合成模型(TTS)
2个模型的质量非常高,SenseVoice在中文和粤语识别上,速度和准确度均比Whisper好;CosyVoice支持多语言、跨语言(句子中同时包含多个语言)、音色和情感控制、音频克隆,效果在开源模型中位于前列。
项目地址:https://fun-audio-llm.github.io/
Github:https://github.com/FunAudioLLM
在线使用SenseVoice:https://www.modelscope.cn/studios/iic/SenseVoice
在线使用CosyVoice:https://www.modelscope.cn/studios/iic/CosyVoice-300M