2024.8.10-谷歌Imagen 3开放使用

1、谷歌Imagen 3现在开放全员使用

效果也不错,提示词写的详细些效果更好。 地址:https://aitestkitchen.withgoogle.com/tools/image-fx

image.png

2、阿里发布Qwen2-Audio模型

支持语音+文本输入,且没有用到ASR模型。语音识别的能力可以,但是聊天效果一般,毕竟是7B模型,另外,音频中的一些信息还是回丢失。

模型:https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6

3、FLUX ControlNet在线使用 目前已支持的ControlNet仅有Canny模式。 地址:https://huggingface.co/spaces/DamarJati/FLUX.1-DEV-Canny

image.png

4、VFusion3D:图片生成3D模型

Meta的模型,论文在今年3月份就发布了,近期发布了代码。效果一般且不可商用。

项目地址:https://junlinhan.github.io/projects/vfusion3d.html

在线使用:https://huggingface.co/spaces/facebook/VFusion3D