1、不使用归一化的Transformer
引入了动态双曲正切(DyT)操作 DyT(x) = tanh(alpha x),作为归一化层的直接替代品,性能可以匹配甚至超越其归一化版本的表现。
论文:https://arxiv.org/abs/2503.10622
2、隐形图像攻击
当某些视觉模式在训练数据中反复出现时,在生成图像的阶段,即使用户没有触发关键词,模型也会在其输出中自然地再现这些模式,可以说是隐形的图像投毒。
项目地址:https://silent-branding.github.io/
3、LLM Post-training综述 论文:https://arxiv.org/abs/2503.06072
我的知识星球