2025.2.21-谷歌开源SigLIP 2视觉-文字编码器

1、谷歌开源SigLIP 2视觉-文字编码器 非原生视觉多模态LLM,需要使用视觉-文字编码器来获得视觉能力。昨天谷歌开源的PaliGemma 2就是使用上一代SigLIP实现视觉能力。 SigLIP 2相比于上一代,核心能力全面超越,包括图片分类、图片-文字检索、为LLM提供视觉能力。 发布了86M, 303M, 400M, 1B四个大小的模型。 模型地址:https://huggingface.co/collections/google/siglip2-67b5dcef38c175486e240107

2、Figure发布Helix:像人一样的机器人

能听懂语音、能推理问题、能抓住几乎家里所有的物品、能多个机器人合作。

官方介绍:https://www.figure.ai/news/helix

qE2poknPe8yegUeF.mp4

3、Pika上线Pikaswaps:一键替换视频中的元素

可以替换人物、物品等,操作简单,相当于是人人都可以用AE实现高级特效了。

Pika在模版化视频功能上越走越远。

3Nclr3rWWM-Y5om3.mp4

4、Google Veo 2上线Freepik 我充了20美元才发现要最高档会员(39美元)才能现在用,等过几天不拥挤的时候再试。 官网:https://www.freepik.com/pikaso/ai-video-generator

Ys-rF9CUKkinXl37.mp4

5、LLM是如何训练出来的——训练工程科普 中文版:https://huggingface.co/spaces/Ki-Seki/ultrascale-playbook-zh-cn AI翻译,由@Ki_Seki_here 人工校对。文章内含可视化的小工具辅助理解。

我的知识星球