1、谷歌放宽Veo 3使用限制
现在Pro用户也可以使用Veo 3了,在Gemini和Flow均可以使用。Flow里每月1000积分,只能生成10个视频。Gemini的次数限制没有明确标注。
Flow地址:https://labs.google/fx/tools/flow
2、MMaDA:扩散多模态模型
基于扩散模型,同时具有文字推理、图片理解、文字生成图片的能力。
Github:https://github.com/gen-verse/mmada
3、VisualPlanning:纯视觉推理
LLM是靠文字推理,VisualPlanning训练视觉模型完全靠图像进行推理,在导航任务上优于LLM。
Github:https://github.com/yix8/visualplanning
我的知识星球