2025.2.23-S*:代码领域的混合测试时间缩放框架

1、S:代码领域的混合测试时间缩放框架* 通过在测试时间增加计算量,提升代码生成的性能。分为生成阶段和选择阶段,结合了并行缩放和顺序缩放的优势,通过自适应输入合成提升选择准确性。 代码能力提升显著:Qwen2.5-7B-Instruct + S得分超过32B模型,GPT-4o mini + S得分超过o1-preview,DeepSeek-R1-Distill-Qwen-32B + S*得分接近o1-high。 Github:https://github.com/NovaSky-AI/SkyThought/tree/main/skythought/test-time-scaling

image.png

2、Moonlight:Moonshot开源的高效率MoE模型 总参数16B、激活参数3B的MoE模型,基于Muon(节省小模型训练资源的优化器)的分布式实现,以更少的训练FLOP实现了更好的性能。 训练过程和代码均开源,Moonshot也开始做一些开源工作了。 Github:https://github.com/MoonshotAI/Moonlight 模型:https://huggingface.co/moonshotai

image.png

3、Crawl4LLM:专为LLM预训练准备的爬虫工具 早期的LLM训练的数据来自于网络,但是网络上低质量的数据很多,大部分爬取的数据在LLM训练前会被抛弃掉。Crawl4LLM就是为了爬取高质量网络数据而做的工具,基于LLM预训练偏好来探索网络图,仅抓取了21%的网络数据,就与之前全部抓取的数据性能相同。 Github:https://github.com/cxcscmu/crawl4llm

我的知识星球

未命名的设计 (1).png