1、MedRAX:解读胸部X光片的智能体
将最先进的CXR分析工具和多模态LLM无缝集成到统一框架中的通用智能体。MedRAX能够动态利用这些模型来解答复杂的医疗查询,与开源和专有模型相比,MedRAX达到了最先进的性能水平。
论文:https://arxiv.org/abs/2502.02673
Github:https://github.com/bowang-lab/MedRAX
2、ZebraLogic:评估LLM推理能力的框架 ZebraLogic能够生成具有可控和可量化复杂度的谜题,用于评估LLM在不同难度下的推理能力。从排行榜上可以看出,DeepSeek是跟o1同水平的模型,推理类模型(o1系列、DeepSeek)的得分显著高于普通LLM。 评估数据集:https://huggingface.co/datasets/WildEval/ZebraLogic 排行:https://huggingface.co/spaces/WildEval/ZebraLogic 论文:https://arxiv.org/abs/2502.01100
3、混元生成角色一致的视频
使用混元视频模型+自己训练的LoRA。
我的知识星球