2025.2.8-VideoLLaMA3:视觉多模态模型

1、VideoLLaMA3:视觉多模态模型

支持图片理解和视频理解,分7B和2B两个大小,7B的模型在同等规模中开源第一。

Github:https://github.com/DAMO-NLP-SG/VideoLLaMA3

模型:https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15

2、storytelling-chatbot:开源的语音+图文讲故事

基于pipecat实现,pipecat是一套多模态开发框架。具体实现原理是Gemini 2.0生成故事、DeepgramAI把用户输入的语音转成文本、ElevenLabs把AI生成的文本转成语音、Google Imagen 3生成图片。

Github:https://github.com/pipecat-ai/pipecat/tree/main/examples/storytelling-chatbot

rBXV3d57TVrdROhQ.mp4

3、SliderSpace:扩散模型视觉拆解

把AI绘画的提示词的方向和强度拆分成不同的滑动条,调整滑动条即可调整强度,包括概念分解、艺术风格和多样性三个方面。

项目地址:https://sliderspace.baulab.info/

twitter_teaser_website.gif

我的知识星球

未命名的设计 (1).png