1、FLUX.1 Kontext [dev]开源
模型开源,但不可商用。效果看起来比Pro版本没有差太多,兼容之前Flux生态的插件和LoRA。
ComfyUI教程:https://docs.comfy.org/tutorials/flux/flux-1-kontext-dev
模型:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Kontext能实现哪些编辑效果,可以看我之前写的公众号,非常全面:https://mp.weixin.qq.com/s/cUMVCYMGlLw9eqPry4RrjQ
2、Qwen3新增生成图片的能力
类似GPT-4o,支持文字生成图片和文字修改图片。单图编辑的效果不错,多图组合编辑效果不太好。
官方介绍:https://qwenlm.github.io/blog/qwen-vlo/
3、谷歌开源Gemma 3n
端侧运行的小模型,分2B和4B大小,支持文本、图片、音频输入,文本输出。首个在LLM竞技场获得1300的10B以下模型。
官方介绍:https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
模型:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
4、谷歌推出AI换衣APP:Doppl