2025.3.12-谷歌开源Gemma 3系列模型

1、谷歌开源Gemma 3系列模型 多模态,支持图片和文本输入,文本输出。分1、4、12、27B四个大小,在LLM竞技场上得分超过DeepSeek V3。 官方介绍:https://developers.googleblog.com/en/introducing-gemma3/

模型:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

2、OpenAI发布一系列Agent工具

包括全新的Responses API、Web Search工具、File Search工具、Computer Use工具,使用这些工具可以搭建自动化任务的智能体。

显然OpenAI不会认可MCP,而是全方位提供替代品。

官方介绍:https://openai.com/index/new-tools-for-building-agents/

3、VACE:All-in-One视频生成和编辑模型 阿里通义Wan团队的新模型,即将开源。支持按条件生成视频,也支持多种方式编辑视频,包括控制运动轨迹、替换主体、主体参考、画面扩展等。 项目地址:https://ali-vilab.github.io/VACE-Page/

AnimateAnything_1.mp4

4、Google Veo 2图生成视频

在Fal上可以使用Google Veo 2图片生成视频了,2.5美元每个视频(8秒长度),效果很稳定,极少出现手部异常等情况。 在线使用:https://fal.ai/models/fal-ai/veo2/image-to-video

V6hkjjBZ3tBrkUZY.mp4

我的知识星球

未命名的设计 (1).png