2024.12.24-Large Concept Model

1、LLM到LCM（Large Concept Model）

LLM是基于token处理信息，但人类是基于多个抽象层次上处理信息，Meta的这个项目新引入了“概念”——更高级的语义标识，目前可以大致认为概念等于句子。基于概念的语言模型，能力优秀，超越了同等规模的LLM。训练代码开源。

2、InternVL2.5-MPO：视觉能力优秀的多模态模型

上海AI实验室出品，在图片的语义描述上非常优秀，甚至可以与GPT-4o媲美。

3、MegaSaM：从单目视频构建场景 谷歌DeepMind的项目，输入动态的普通视频，可以预估相机视角和景深，构建视频中的场景。项目地址：https://mega-sam.github.io/#demo

4、Video Prediction Policy：视频预测策略

因为视频扩散模型对物理有着比较好的理解，利用这一点来预测物理世界，并把策略应用到机器人控制中。

我的知识星球

只分享精选的最佳AI应用和技巧，有服务群，可以答疑。目前50元可以加入。

未命名的设计 (1).png