2024.8.29-Gemini更新

1、Gemini更新

推出Gems,类似ChatGPT的GPTs,另外生成图片的模型也换成了Imagen 3,两者均需要付费Advance会员才能使用。

官方介绍:https://blog.google/products/gemini/google-gemini-update-august-2024/

2、GenWarp:生成新视角的图片

输入一张图片,可以生成图片中内容的新镜头角度的图片。可以理解为调整了摄像头的位置和角度,然后生成式填充出一张新的图片,保持图片中内容不变。效果一般。

项目地址:https://genwarp-nvs.github.io/

在线体验:https://huggingface.co/spaces/Sony/genwarp

image.png

3、ReMamba:提升Mamba模型处理长文本的能力

ReMamba增强了Mamba模型处理长文本的能力,并且保持了较高的推理性能,缩小了和Transformer模型在长文本上的差距。

论文:https://arxiv.org/abs/2408.15496#

4、InterTrack:从视频中追踪人和物体的交互

提出了一种合成交互视频的方法,创建了10小时的合成视频数据,包括8.5k个序列,具有完整的3D真实标注,基于这些数据训练模型,实现了无需模板即可跟踪视频中的人与物体交互。

项目地址:https://virtualhumans.mpi-inf.mpg.de/InterTrack/

twittervid.com_XianghuiXie_c61cc5.mp4