2025.3.17-今天没什么新闻

1、不使用归一化的Transformer

引入了动态双曲正切(DyT)操作 DyT(x) = tanh(alpha x),作为归一化层的直接替代品,性能可以匹配甚至超越其归一化版本的表现。

论文:https://arxiv.org/abs/2503.10622

2、隐形图像攻击

当某些视觉模式在训练数据中反复出现时,在生成图像的阶段,即使用户没有触发关键词,模型也会在其输出中自然地再现这些模式,可以说是隐形的图像投毒。

项目地址:https://silent-branding.github.io/

image.png

3、LLM Post-training综述 论文:https://arxiv.org/abs/2503.06072

image.png

我的知识星球

未命名的设计 (1).png