1、VideoCrafter1:新的AI生成视频模型
支持文字生成视频、图片生成视频。
Github:https://github.com/AILab-CVC/VideoCrafter
Discord使用:https://discord.com/invite/rrayYqZ4tf
在线colab:https://github.com/camenduru/VideoCrafter-colab
效果演示:
ssstwitter.com_1697283647487.mp4
2、FireAct:关于Agent(代理)和LLM fine-tuning(模型微调)交叉领域的研究 使用多种任务和代理方法来微调LLM,可以使LLM获得显著的提升。使用 GPT-4 生成的 500 个智能体轨迹对 Llama2-7B 进行微调,可使 HotpotQA 性能提高 77% 项目地址:https://fireact-agent.github.io/ Github:https://github.com/anchen1011/FireAct

3、Octopus:一个新的VLM(视觉-语言模型)
一个新的视觉语言模型,可以把包含视觉和文字的任务,拆解成行动序列,并生成执行代码。
项目地址:https://choiszt.github.io/Octopus/
Github:https://github.com/dongyh20/Octopus
论文:https://arxiv.org/abs/2310.08588
4、如何实现多模态的文档问答
基于PDF或者Word文档做总结或者问答,现在已经不新鲜了,但是如果文档里有图片,提问的内容涉及图片怎么办? LangChain出了一份cookbook,讲解了该如何实现多模态的文档问答。用到了LLaVA、llama、向量数据库等。