2024.8.24-Show-o:统一视觉多模态模型

1、Show-o:统一视觉多模态模型

支持文本和图片的原生输入和输出,同时具有理解图片和生成图片的能力。

Github:https://github.com/showlab/Show-o

image.png

2、Video-Foley:视频生成音频

根据视频自动生成音效。目前仅有论文。

项目地址:https://jnwnlee.github.io/video-foley-demo/

3、xGen-VideoSyn-1:DiT视频模型

Salesforce推出的AI视频模型,基于DiT架构,支持生成超过14秒的720p视频。项目Github有IP过滤,不是所有人都能打开。

Github:https://github.com/SalesforceAIResearch/xgen-videosyn

4、能生成UI设计图的LoRA

基于Flux,效果不错,可以与Ideogram 2.0一战。

模型:https://tusiart.com/models/765053307455602351?source_id=nji1r1rgk0e2rfMsYH3y8hYn

image.png