1、Qwen Chat:基于QWen模型的聊天应用
基于Open WebUI开发,支持上传文件,支持Artifacts,支持同时使用多个模型回复。
2、Hallo3:让肖像动起来 Hallo的第3个版本,输入音频和角色图片,可以生成该角色讲对应语音的视频,嘴型与语音匹配,有表情,有头部动作。 项目地址:https://fudan-generative-vision.github.io/hallo3/#/
twittervid.com_JoeSiyuZhu_54d2ed.mp4
3、FitDiT:开源AI换衣模型 支持选择换上半身、下半身还是整套,但是效果比不上之前Meta开源的Leffa。 在线使用:https://huggingface.co/spaces/BoyuanJiang/FitDiT Github:https://github.com/BoyuanJiang/FitDiT
4、Moondream 2B:性价比极佳的视觉多模态模型 2B大小,性能接近QWen2-VL 2B,但是需要的VRAM只有4G多(QWen2-VL 2B需要13G),个人电脑即可运行。同时还发布了0.5B的版本。 Github:https://github.com/vikhyat/moondream 在线使用:https://moondream.ai/playground
5、Moondream Gaze Detection:视线检测 能检测图片中人物眼睛看的方向,效果接近最佳,目前还未发布模型,但是演示视频太魔性了。 在线体验:https://huggingface.co/spaces/moondream/gaze-demo
twittervid.com_vikhyatk_a39155.mp4
6、Sync发布lipsync-1.9-beta
Sync团队是wav2lips的作者,闭源的模型叫lipsync,现在发布了1.9版本,历史版本我断断续续用过,感受最好的是1.6版本,新的1.8版本反而不好。优点是能处理非常长的视频,支持视频切场景。