1、Wan2.1-FLF2V:支持首尾帧的Wan视频模型
模型:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
2、UI-TARS-1.5:能识别UI操作的智能体
字节发布,开源多模态智能体。7B大小,能力不会太强。
模型:https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B
3、MAI-DS-R1:微软后训练的DeepSeek R1
使用的数据是Tulu 3 SFT,我感觉不一定效果比原版好。
模型:https://huggingface.co/microsoft/MAI-DS-R1
4、大模型竞技场LMArena有官网了
不再依赖于抱抱脸上的Gradio了。
5、Google发布QAT版本的Gemma-3
显存占用更小,性能损失比较小。
模型:https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b