2025.2.8-VideoLLaMA3：视觉多模态模型

1、VideoLLaMA3：视觉多模态模型

支持图片理解和视频理解，分7B和2B两个大小，7B的模型在同等规模中开源第一。

2、storytelling-chatbot：开源的语音+图文讲故事

基于pipecat实现，pipecat是一套多模态开发框架。具体实现原理是Gemini 2.0生成故事、DeepgramAI把用户输入的语音转成文本、ElevenLabs把AI生成的文本转成语音、Google Imagen 3生成图片。

3、SliderSpace：扩散模型视觉拆解

把AI绘画的提示词的方向和强度拆分成不同的滑动条，调整滑动条即可调整强度，包括概念分解、艺术风格和多样性三个方面。

我的知识星球

未命名的设计 (1).png