2024.6.19-Hedra:已经产品化的Emo

1、Hedra:已经产品化的Emo

输入音频和人物图片,生成嘴型匹配的角色视频,带有表情和头部动作。模型支持生成无限长度的视频,目前只允许生成30秒内的视频。

在线使用:https://www.hedra.com/

twittervid.com_hedra_labs_e2615f.mp4

2、Meta开放几个模型

1)Chameleon,支持图片+文本输入和图片+文本输出,为了安全,只开放了输出文本功能,模型有7B和34B两个大小。

2)多token预测的模型。因为预测的内容更多,LLM可以更全面的考虑整体结构,从而更有逻辑性。发布的7B模型仅使用了200B的token做训练,只适用于研究。

3)JASCO,文字生成音乐的模型,支持输入音频作为参考。

4)AudioSeal,音频水印技术。

详细介绍和模型下载地址见官方博客:https://ai.meta.com/blog/meta-fair-research-new-releases/

3、Genspark:Perplexity的竞品 搜索+AI总结,支持生成类似Perplexity的Page,在一个页面内整理搜索结果,对于追热点比较有效。 我搜索“姜萍”整理出的页面:https://www.genspark.ai/spark?id=b5f90fc9-5e66-32a6-a398-e261c4d8dec3

Untitled

4、Flash Diffusion:支持SD3快速出图

适用于任意扩散模型,不论是基于UNet的SDXL还是基于DiT的SD3。

项目地址:https://gojasper.github.io/flash-diffusion-project/

在线体验FlashSD3:https://huggingface.co/spaces/jasperai/flash-sd3