2024.8.24-Show-o：统一视觉多模态模型

1、Show-o：统一视觉多模态模型

支持文本和图片的原生输入和输出，同时具有理解图片和生成图片的能力。

2、Video-Foley：视频生成音频

根据视频自动生成音效。目前仅有论文。

3、xGen-VideoSyn-1：DiT视频模型

Salesforce推出的AI视频模型，基于DiT架构，支持生成超过14秒的720p视频。项目Github有IP过滤，不是所有人都能打开。

4、能生成UI设计图的LoRA

基于Flux，效果不错，可以与Ideogram 2.0一战。