2025.1.4-LatentSync:开源嘴型同步模型

1、LatentSync:开源嘴型同步模型 字节开源的模型,可能是目前开源最佳,在这之前只有wav2lips效果还可以,你能看到的各种虚拟人基本都是基于wav2lips重新训练而来。 LatentSync基于Stable Diffusion,针对时间一致性做了优化,推理只需要6.5G显存。 Github:https://github.com/bytedance/LatentSync

395589524-150e00fd-381e-4421-a478-a9ea3d1212a8.mp4

2、OLMo 2:完全开源的模型

包括完整训练数据、训练代码和方案、训练日志以及数千个中间检查点,11月发布的模型,最近放出了更多版本的模型。

模型地址:https://huggingface.co/collections/allenai/olmo-2-674117b93ab84e98afc72edc

3、谷歌的Agent白皮书 谷歌写的一篇文章,介绍了Agent的基础概念和基于LangChain的简单实现。 文章地址:https://kaggle.com/whitepaper-agents

4、CodebaseToPrompt:把代码库转换成Prompt

把本地代码仓库转换成结构化文本,用于跟LLM对话,算是手动版的Windsurf的一部分。

另外还有RepoPrompt这个工具,效果类似且更好用:https://repoprompt.com/

CodebaseToPrompt Github:https://github.com/path-find-er/CodebaseToPrompt

5、Grok 3即将发布

预训练的计算量是Grok 2的10倍,而且会支持搜索。

我的知识星球