1、Gemini更新
推出Gems,类似ChatGPT的GPTs,另外生成图片的模型也换成了Imagen 3,两者均需要付费Advance会员才能使用。
官方介绍:https://blog.google/products/gemini/google-gemini-update-august-2024/
2、GenWarp:生成新视角的图片
输入一张图片,可以生成图片中内容的新镜头角度的图片。可以理解为调整了摄像头的位置和角度,然后生成式填充出一张新的图片,保持图片中内容不变。效果一般。
项目地址:https://genwarp-nvs.github.io/
在线体验:https://huggingface.co/spaces/Sony/genwarp

3、ReMamba:提升Mamba模型处理长文本的能力
ReMamba增强了Mamba模型处理长文本的能力,并且保持了较高的推理性能,缩小了和Transformer模型在长文本上的差距。
论文:https://arxiv.org/abs/2408.15496#
4、InterTrack:从视频中追踪人和物体的交互
提出了一种合成交互视频的方法,创建了10小时的合成视频数据,包括8.5k个序列,具有完整的3D真实标注,基于这些数据训练模型,实现了无需模板即可跟踪视频中的人与物体交互。