1、LLM到LCM(Large Concept Model)
LLM是基于token处理信息,但人类是基于多个抽象层次上处理信息,Meta的这个项目新引入了“概念”——更高级的语义标识,目前可以大致认为概念等于句子。基于概念的语言模型,能力优秀,超越了同等规模的LLM。训练代码开源。
2、InternVL2.5-MPO:视觉能力优秀的多模态模型
上海AI实验室出品,在图片的语义描述上非常优秀,甚至可以与GPT-4o媲美。
模型:https://huggingface.co/collections/OpenGVLab/internvl25-mpo-6753fed98cd828219b12f849
3、MegaSaM:从单目视频构建场景 谷歌DeepMind的项目,输入动态的普通视频,可以预估相机视角和景深,构建视频中的场景。 项目地址:https://mega-sam.github.io/#demo
4、Video Prediction Policy:视频预测策略
因为视频扩散模型对物理有着比较好的理解,利用这一点来预测物理世界,并把策略应用到机器人控制中。
项目地址:https://video-prediction-policy.github.io/
我的知识星球
只分享精选的最佳AI应用和技巧,有服务群,可以答疑。目前50元可以加入。