2025.1.6-今天没什么新闻

1、VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github:https://github.com/VITA-MLLM/VITA

twittervid.com_Gorden_Sun_1ccee4.mp4

2、ElevenLabs的一次成功应用

Lex Fridman采访了泽连斯基,因为这种场合泽连斯基不能说俄语,所以用ElevenLabs生成了英语音轨,堪称一次出圈的AI使用场景。

视频:

https://www.youtube.com/watch?v=u321m25rKXc

我的知识星球

未命名的设计 (1).png