2025.3.17-今天没什么新闻

1、不使用归一化的Transformer

引入了动态双曲正切（DyT）操作 DyT(x) = tanh(alpha x)，作为归一化层的直接替代品，性能可以匹配甚至超越其归一化版本的表现。

论文：https://arxiv.org/abs/2503.10622

2、隐形图像攻击

当某些视觉模式在训练数据中反复出现时，在生成图像的阶段，即使用户没有触发关键词，模型也会在其输出中自然地再现这些模式，可以说是隐形的图像投毒。

项目地址：https://silent-branding.github.io/

3、LLM Post-training综述 论文：https://arxiv.org/abs/2503.06072

我的知识星球

未命名的设计 (1).png