1、IndexTTS2:高还原度TTS模型
演示视频非常出色,不仅能保持人物音色,还能还原语气和情绪。项目暂未发布,仅有Demo。
项目地址:https://index-tts.github.io/index-tts2.github.io/
2、T-LoRA:能避免过拟合的LoRA方法
普通的LoRA方法,虽然能保持主体一致,但是常常会出现其他元素影响了生成结果的情况,例如动作也复用了参考图的动作、背景也复用参考图的背景(MidJourney的图片参考经常这样)。T-LoRA可以调整LoRA和文本对齐平衡点,保持主体一致的同时避免过拟合。
Github:https://github.com/ControlGenAI/T-LoRA
3、PyVision:LLM生成工具解决视觉问题
在视觉推理领域,现有多模态模型的方法很大程度上受限于预定义的工作流和静态工具集。PyVision让MLLM能够自主生成、执行和优化基于Python的工具,从而开发出针对当前任务的视觉工具,然后再调用工具解决问题。在 V* 上使 GPT-4.1 的性能提升了 7.8%,在 VLMsAreBlind-mini 上使 Claude-4.0-Sonnet 的性能提升了 31.1%。
Github:https://github.com/agents-x-project/PyVision
项目地址:https://agent-x.space/pyvision/
我的公众号:AI加速派