2023.10.14-VideoCrafter1：新的AI生成视频模型

1、VideoCrafter1：新的AI生成视频模型

支持文字生成视频、图片生成视频。

Github：https://github.com/AILab-CVC/VideoCrafter

Discord使用：https://discord.com/invite/rrayYqZ4tf

在线colab：https://github.com/camenduru/VideoCrafter-colab

效果演示：

ssstwitter.com_1697283647487.mp4

2、FireAct：关于Agent（代理）和LLM fine-tuning（模型微调）交叉领域的研究 使用多种任务和代理方法来微调LLM，可以使LLM获得显著的提升。使用 GPT-4 生成的 500 个智能体轨迹对 Llama2-7B 进行微调，可使 HotpotQA 性能提高 77% 项目地址：https://fireact-agent.github.io/ Github：https://github.com/anchen1011/FireAct

Untitled

3、Octopus：一个新的VLM（视觉-语言模型）

一个新的视觉语言模型，可以把包含视觉和文字的任务，拆解成行动序列，并生成执行代码。

项目地址：https://choiszt.github.io/Octopus/

Github：https://github.com/dongyh20/Octopus

论文：https://arxiv.org/abs/2310.08588

4、如何实现多模态的文档问答

基于PDF或者Word文档做总结或者问答，现在已经不新鲜了，但是如果文档里有图片，提问的内容涉及图片怎么办？ LangChain出了一份cookbook，讲解了该如何实现多模态的文档问答。用到了LLaVA、llama、向量数据库等。