1、MatAnyone:精准分割复杂背景 传统无辅助视频抠图方法在复杂/模糊背景中效果欠佳,MatAnyone有三大创新: 1、区域自适应记忆融合:通过动态融合前一帧记忆特征,确保核心区域语义稳定性,同时保留边缘细节; 3、构建迄今最大规模高质量视频抠图数据集,覆盖多样真实场景; 3、创新训练策略:高效利用海量分割数据提升时序稳定性。
项目地址:https://pq-yang.github.io/projects/MatAnyone/
2、OmniHuman:端到端多模态虚拟人视频生成框架 字节的项目,应该不会开源。核心亮点: 1、多模态混合训练策略:融合不同模态数据,突破高质量数据稀缺的瓶颈; 2、支持任意比例图片输入(全身/半身/肖像),输出高清、自然的人体动作;不仅支持真人,也支持3D人物和动漫人物; 3、尤其擅长基于弱信号(如纯音频)生成高保真视频,效果远超现有方法。 项目地址:https://omnihuman-lab.github.io/
3、开源RAG聊天组件
可以放到Next.js应用中,用于在网页中打开AI聊天小窗口。使用Upstash Vector做向量搜索、使用Together AI的LLM API、使用Vercel AI SDK实现流式回复。
在线体验:https://rag-component.upstash.app/
Github:https://github.com/upstash/rag-chat-component
4、Anthropic关于LLM安全的更新
Anthropic发布了一篇博客,介绍他们是如何提升LLM安全的,同时放出了一个在线测试,你可以尽可能突破LLM的限制,让他回答本应拒绝的问题。
博客:https://www.anthropic.com/research/constitutional-classifiers
在线测试:https://claude.ai/constitutional-classifiers
我的知识星球