2024.12.24-Large Concept Model

1、LLM到LCM(Large Concept Model)

LLM是基于token处理信息,但人类是基于多个抽象层次上处理信息,Meta的这个项目新引入了“概念”——更高级的语义标识,目前可以大致认为概念等于句子。基于概念的语言模型,能力优秀,超越了同等规模的LLM。训练代码开源。

官方介绍:https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

2、InternVL2.5-MPO:视觉能力优秀的多模态模型

上海AI实验室出品,在图片的语义描述上非常优秀,甚至可以与GPT-4o媲美。

模型:https://huggingface.co/collections/OpenGVLab/internvl25-mpo-6753fed98cd828219b12f849

3、MegaSaM:从单目视频构建场景 谷歌DeepMind的项目,输入动态的普通视频,可以预估相机视角和景深,构建视频中的场景。 项目地址:https://mega-sam.github.io/#demo

12月24日 (1).mp4

4、Video Prediction Policy:视频预测策略

因为视频扩散模型对物理有着比较好的理解,利用这一点来预测物理世界,并把策略应用到机器人控制中。

项目地址:https://video-prediction-policy.github.io/

我的知识星球

只分享精选的最佳AI应用和技巧,有服务群,可以答疑。目前50元可以加入。

未命名的设计 (1).png