1、稚晖君的智元发布首个通用具身基座模型
由VLM(多模态大模型) + MoE(混合专家)组成,能感知和理解场景并采取行动。
官方介绍:https://agibot-world.cn/blog/go1
2、nanobrowser:开源版OpenAI Operator 是个Chrome插件,安装后在本地运行,支持OpenAI、Claude、Gemini三家API。运行过程可视化,是可AI交互版本的RPA。 Github:https://github.com/nanobrowser/nanobrowser
3、MIDI:图片生成3D场景 输入图片,提取图片场景中的元素,生成360度3D场景。 项目地址:https://huanngzh.github.io/MIDI-Page/
4、VideoPainter:视频局部编辑 输入提示词,自动识别需要修改的视频内容并完成修改,支持长视频,适用于DiT模型。 项目地址:https://yxbian23.github.io/project/video-painter/
我的知识星球