1、OmniAvatar:音频驱动生成虚拟人视频
基于Wan 2.1模型,通过音频生成虚拟人说话视频,嘴型匹配,有表情有动作。
项目地址:https://omni-avatar.github.io/
Github:https://github.com/Omni-Avatar/OmniAvatar
2、MAI-DxO:AI诊疗系统
由LLM模拟一组医生,提出可能的鉴别诊断,并策略性地选择高价值、高性价比的检测方法。与 OpenAI 的 o3 模型结合使用时,MAI-DxO 的诊断准确率可达 80%,是全科医生 20% 平均准确率的四倍。
博客:https://microsoft.ai/new/the-path-to-medical-superintelligence/
论文:https://arxiv.org/abs/2506.22405
3、GLM-4.1V-9B-Thinking:开源视觉推理模型
智谱开源的视觉推理模型,在GLM-4V基础上引入了推理机制。是10B以下能力最佳的视觉模型,部分评分接近72B的Qwen 2.5 VL。
在线体验:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
模型:https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking
我的公众号:AI加速派