2024.6.19-Hedra：已经产品化的Emo

1、Hedra：已经产品化的Emo

输入音频和人物图片，生成嘴型匹配的角色视频，带有表情和头部动作。模型支持生成无限长度的视频，目前只允许生成30秒内的视频。

2、Meta开放几个模型

1）Chameleon，支持图片+文本输入和图片+文本输出，为了安全，只开放了输出文本功能，模型有7B和34B两个大小。

2）多token预测的模型。因为预测的内容更多，LLM可以更全面的考虑整体结构，从而更有逻辑性。发布的7B模型仅使用了200B的token做训练，只适用于研究。

3）JASCO，文字生成音乐的模型，支持输入音频作为参考。

4）AudioSeal，音频水印技术。

3、Genspark：Perplexity的竞品 搜索+AI总结，支持生成类似Perplexity的Page，在一个页面内整理搜索结果，对于追热点比较有效。我搜索“姜萍”整理出的页面：https://www.genspark.ai/spark?id=b5f90fc9-5e66-32a6-a398-e261c4d8dec3

Untitled

4、Flash Diffusion：支持SD3快速出图

适用于任意扩散模型，不论是基于UNet的SDXL还是基于DiT的SD3。