1、阿里的Emo可以用了
估计不会开源了,在通用千万APP-频道-全民舞台里使用。上传图片即可让角色唱歌或说话,效果很好。
twittervid.com_Gorden_Sun_712bf3.mp4
2、Myshell推出OpenVoice v2开源语音模型
支持克隆语音、合成多语言音频,比v1版本提升了音频质量,可商用。
Github:https://github.com/myshell-ai/OpenVoice
3、IntrinsicAnything:调整图片光照 保持图片中物体的材质,对图片重新调整光照。 项目地址:https://zju3dv.github.io/IntrinsicAnything/
twittervid.com_dreamingtulpa_e72588.mp4
4、Cohere工具包:快速构建和部署RAG应用 Cohere开源的工具包,用于开发RAG应用,可以一键部署到微软Azure上,也可以本地部署。 Github:https://github.com/cohere-ai/cohere-toolkit

5、Align Your Steps:SD低步数推理获得高质量结果
适用于SD 1.5和SDXL,低步数的同时保持高质量质量。
项目地址:https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/
在线colab:https://colab.research.google.com/drive/1cIwbbO4HRP1aUQ8WcbQBaT8p3868k7BC?usp=sharing
适用于SDXL的ComfyUI工作流:https://openart.ai/workflows/KrmAPmuIWMzztrE7Qkrc