2025.1.6-今天没什么新闻

1、VITA-1.5：开源版视频+语音模型 效果类似ChatGPT APP的视频交互，能看能听能说，但不是原生多模态。视觉多模态LLM使用的是QWen2.5，语音延迟只有1.5秒，且支持打断。 Github：https://github.com/VITA-MLLM/VITA

twittervid.com_Gorden_Sun_1ccee4.mp4

2、ElevenLabs的一次成功应用

Lex Fridman采访了泽连斯基，因为这种场合泽连斯基不能说俄语，所以用ElevenLabs生成了英语音轨，堪称一次出圈的AI使用场景。

视频：

https://www.youtube.com/watch?v=u321m25rKXc

我的知识星球

未命名的设计 (1).png