2023.10.14-VideoCrafter1:新的AI生成视频模型

1、VideoCrafter1:新的AI生成视频模型

支持文字生成视频、图片生成视频。

Github:https://github.com/AILab-CVC/VideoCrafter

Discord使用:https://discord.com/invite/rrayYqZ4tf

在线colab:https://github.com/camenduru/VideoCrafter-colab

效果演示:

ssstwitter.com_1697283647487.mp4

2、FireAct:关于Agent(代理)和LLM fine-tuning(模型微调)交叉领域的研究 使用多种任务和代理方法来微调LLM,可以使LLM获得显著的提升。使用 GPT-4 生成的 500 个智能体轨迹对 Llama2-7B 进行微调,可使 HotpotQA 性能提高 77% 项目地址:https://fireact-agent.github.io/ Github:https://github.com/anchen1011/FireAct

Untitled

3、Octopus:一个新的VLM(视觉-语言模型)

一个新的视觉语言模型,可以把包含视觉和文字的任务,拆解成行动序列,并生成执行代码。

项目地址:https://choiszt.github.io/Octopus/

Github:https://github.com/dongyh20/Octopus

论文:https://arxiv.org/abs/2310.08588

4、如何实现多模态的文档问答

基于PDF或者Word文档做总结或者问答,现在已经不新鲜了,但是如果文档里有图片,提问的内容涉及图片怎么办? LangChain出了一份cookbook,讲解了该如何实现多模态的文档问答。用到了LLaVA、llama、向量数据库等。