2025.3.11-首个通用具身基座模型

1、稚晖君的智元发布首个通用具身基座模型

由VLM(多模态大模型) + MoE(混合专家)组成，能感知和理解场景并采取行动。

2、nanobrowser：开源版OpenAI Operator 是个Chrome插件，安装后在本地运行，支持OpenAI、Claude、Gemini三家API。运行过程可视化，是可AI交互版本的RPA。 Github：https://github.com/nanobrowser/nanobrowser

3、MIDI：图片生成3D场景 输入图片，提取图片场景中的元素，生成360度3D场景。项目地址：https://huanngzh.github.io/MIDI-Page/

teaser.mp4

4、VideoPainter：视频局部编辑 输入提示词，自动识别需要修改的视频内容并完成修改，支持长视频，适用于DiT模型。项目地址：https://yxbian23.github.io/project/video-painter/

edit-gallery-1.mp4

我的知识星球

未命名的设计 (1).png