BadNets¶

📖 阅读信息

阅读时间约 3 分钟　|　约 571 字　|　约 2 个公式　|　没有代码，请放心食用

文章的作者都来自纽约大学。

内容¶

文章本身没有什么好谈的，我觉得其结论是一个很 trivial 的东西，并没有很丰富的营养。

文章提出了三种网络范式：

A: 干净的网络，通过干净的训练样本训练得到。
B: 理想的后门攻击，也就是在干净网络侧面加入一个并行模块用来识别后门。一旦出现攻击的样本就被触发并自动进行干扰。
C: 现实情况是，不可能单独设置一个独立的后门触发逻辑，而是从数据侧投毒。

文章主要论证了 C 情况也是相当可行的。我们对数据进行投毒。在图像分类领域里面，我们可以在图像的一小部分添加一个特定修改，然后让修改后的图像指向我们期望的分类。

文章除了在背景知识里面放了几个基础的公式之后，后面就没有什么式子了。文章主要的贡献是提出了这个威胁模型，并且做了很多可行性验证。

文章对提出的后门攻击进行了实验，效果很好。

在迁移学习情境下，文章也论证了后门仍然在一定程度上被保留。

评述¶

笔者认为这篇文章没什么营养（除了做的几个实验有点看头），因为一个神经网络无非就是一个拟合机器，而通过数据投毒的方式引入后门，本身也并没有离开神经网络拟合与泛化的本质。只要它能够通过训练特征提取器识别到“后门”的特征，并且在标签中给出区分，那么这就是一个有意义的优化目标，自然能够被埋入后门。

并且后门还存在反演的可能，因此如何实现更隐蔽的后门以及如何实现更高效的后门反演/检测都是问题，很可惜这篇文章没有提到。如果说后门在 \(L\) 范数意义下是难以察觉的，那么一般的针对 \(L\) 范数的对抗样本方法理应找到对应的后门触发器。

📝 如果您需要引用本文

Yan Li. (Sep. 27, 2025). BadNets [Blog post]. Retrieved from https://dicaeopolis.github.io/DNN/model-attack/BadNets

在 BibTeX 格式中：

@online{BadNets,
    title={BadNets},
    author={Yan Li},
    year={2025},
    month={Sep},
    url={\url{https://dicaeopolis.github.io/DNN/model-attack/BadNets}},
}