2025.7.2-OmniAvatar：音频驱动生成虚拟人视频

1、OmniAvatar：音频驱动生成虚拟人视频

基于Wan 2.1模型，通过音频生成虚拟人说话视频，嘴型匹配，有表情有动作。

2、MAI-DxO：AI诊疗系统

由LLM模拟一组医生，提出可能的鉴别诊断，并策略性地选择高价值、高性价比的检测方法。与 OpenAI 的 o3 模型结合使用时，MAI-DxO 的诊断准确率可达 80%，是全科医生 20% 平均准确率的四倍。

3、GLM-4.1V-9B-Thinking：开源视觉推理模型

智谱开源的视觉推理模型，在GLM-4V基础上引入了推理机制。是10B以下能力最佳的视觉模型，部分评分接近72B的Qwen 2.5 VL。

我的公众号：AI加速派