1、VideoLLaMA3:视觉多模态模型
支持图片理解和视频理解,分7B和2B两个大小,7B的模型在同等规模中开源第一。
Github:https://github.com/DAMO-NLP-SG/VideoLLaMA3
模型:https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15
2、storytelling-chatbot:开源的语音+图文讲故事
基于pipecat实现,pipecat是一套多模态开发框架。具体实现原理是Gemini 2.0生成故事、DeepgramAI把用户输入的语音转成文本、ElevenLabs把AI生成的文本转成语音、Google Imagen 3生成图片。
Github:https://github.com/pipecat-ai/pipecat/tree/main/examples/storytelling-chatbot
3、SliderSpace:扩散模型视觉拆解
把AI绘画的提示词的方向和强度拆分成不同的滑动条,调整滑动条即可调整强度,包括概念分解、艺术风格和多样性三个方面。
项目地址:https://sliderspace.baulab.info/
我的知识星球