2024.9.24-字节发布AI视频模型

1、字节发布AI视频模型

包括PixelDance和Seaweed两款视频模型,PixelDance的效果更佳,支持各种运镜、分镜效果。在火山引擎可以申请体验,地址:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?projectName=undefined&type=GenVideo

同时发布了一系列其他模型,包括图生文模型、同声传译模型、LLM模型等,在火山引擎可以看到,大多需要申请权限。

详细可以看小互的整理:https://xiaohu.ai/p/13950

2、PDF2Audio:PDF转语音

支持上传多个PDF文件,支持转成播客、讲座、摘要等语音形式,可以认为是谷歌NotebookLM的开源平替方案。

Github:https://github.com/lamm-mit/PDF2Audio

3、StableDelight:去除图片的光照

可以去除图片的光照,将图片里反光的效果全部去除。作用在人像上效果很奇怪,也不知道这个应用有什么使用场景。

Github:https://github.com/Stable-X/StableDelight

在线体验:https://huggingface.co/spaces/Stable-X/StableDelight

image.png

4、谷歌语音克隆

谷歌发布了一个项目,仅需几秒钟的参考音频,即可实现声音克隆,且支持合成跨语言的音频。

没有开源,仅有示例和论文。

项目地址:https://google.github.io/tacotron/publications/zero_shot_voice_transfer/