2024.9.24-字节发布AI视频模型

1、字节发布AI视频模型

包括PixelDance和Seaweed两款视频模型，PixelDance的效果更佳，支持各种运镜、分镜效果。在火山引擎可以申请体验，地址：https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?projectName=undefined&type=GenVideo

同时发布了一系列其他模型，包括图生文模型、同声传译模型、LLM模型等，在火山引擎可以看到，大多需要申请权限。

详细可以看小互的整理：https://xiaohu.ai/p/13950

2、PDF2Audio：PDF转语音

支持上传多个PDF文件，支持转成播客、讲座、摘要等语音形式，可以认为是谷歌NotebookLM的开源平替方案。

3、StableDelight：去除图片的光照

可以去除图片的光照，将图片里反光的效果全部去除。作用在人像上效果很奇怪，也不知道这个应用有什么使用场景。

4、谷歌语音克隆

谷歌发布了一个项目，仅需几秒钟的参考音频，即可实现声音克隆，且支持合成跨语言的音频。

没有开源，仅有示例和论文。