1、Show-o:统一视觉多模态模型
支持文本和图片的原生输入和输出,同时具有理解图片和生成图片的能力。
Github:https://github.com/showlab/Show-o

2、Video-Foley:视频生成音频
根据视频自动生成音效。目前仅有论文。
项目地址:https://jnwnlee.github.io/video-foley-demo/
3、xGen-VideoSyn-1:DiT视频模型
Salesforce推出的AI视频模型,基于DiT架构,支持生成超过14秒的720p视频。项目Github有IP过滤,不是所有人都能打开。
Github:https://github.com/SalesforceAIResearch/xgen-videosyn
4、能生成UI设计图的LoRA
基于Flux,效果不错,可以与Ideogram 2.0一战。
模型:https://tusiart.com/models/765053307455602351?source_id=nji1r1rgk0e2rfMsYH3y8hYn
