1、LatentSync:开源嘴型同步模型 字节开源的模型,可能是目前开源最佳,在这之前只有wav2lips效果还可以,你能看到的各种虚拟人基本都是基于wav2lips重新训练而来。 LatentSync基于Stable Diffusion,针对时间一致性做了优化,推理只需要6.5G显存。 Github:https://github.com/bytedance/LatentSync
395589524-150e00fd-381e-4421-a478-a9ea3d1212a8.mp4
2、OLMo 2:完全开源的模型
包括完整训练数据、训练代码和方案、训练日志以及数千个中间检查点,11月发布的模型,最近放出了更多版本的模型。
模型地址:https://huggingface.co/collections/allenai/olmo-2-674117b93ab84e98afc72edc
3、谷歌的Agent白皮书 谷歌写的一篇文章,介绍了Agent的基础概念和基于LangChain的简单实现。 文章地址:https://kaggle.com/whitepaper-agents
4、CodebaseToPrompt:把代码库转换成Prompt
把本地代码仓库转换成结构化文本,用于跟LLM对话,算是手动版的Windsurf的一部分。
另外还有RepoPrompt这个工具,效果类似且更好用:https://repoprompt.com/
CodebaseToPrompt Github:https://github.com/path-find-er/CodebaseToPrompt
5、Grok 3即将发布
预训练的计算量是Grok 2的10倍,而且会支持搜索。
我的知识星球