2025.2.23-S*：代码领域的混合测试时间缩放框架

1、S：代码领域的混合测试时间缩放框架* 通过在测试时间增加计算量，提升代码生成的性能。分为生成阶段和选择阶段，结合了并行缩放和顺序缩放的优势，通过自适应输入合成提升选择准确性。代码能力提升显著：Qwen2.5-7B-Instruct + S得分超过32B模型，GPT-4o mini + S得分超过o1-preview，DeepSeek-R1-Distill-Qwen-32B + S*得分接近o1-high。 Github：https://github.com/NovaSky-AI/SkyThought/tree/main/skythought/test-time-scaling

2、Moonlight：Moonshot开源的高效率MoE模型 总参数16B、激活参数3B的MoE模型，基于Muon（节省小模型训练资源的优化器）的分布式实现，以更少的训练FLOP实现了更好的性能。训练过程和代码均开源，Moonshot也开始做一些开源工作了。 Github：https://github.com/MoonshotAI/Moonlight 模型：https://huggingface.co/moonshotai

3、Crawl4LLM：专为LLM预训练准备的爬虫工具 早期的LLM训练的数据来自于网络，但是网络上低质量的数据很多，大部分爬取的数据在LLM训练前会被抛弃掉。Crawl4LLM就是为了爬取高质量网络数据而做的工具，基于LLM预训练偏好来探索网络图，仅抓取了21%的网络数据，就与之前全部抓取的数据性能相同。 Github：https://github.com/cxcscmu/crawl4llm

我的知识星球

未命名的设计 (1).png