FGPM：文本对抗样本生成新方法

1. 引言
2. 当前文本对抗样本的研究
3. 核心思想
4. 模型介绍
- 4.1 文本对抗样本
- 4.2 对抗样本的生成
5. FGPM的对抗训练
6. 实验结果
- 6.1 数据集
- 6.2 对抗攻击有效性评估

参考文章：

https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/108806253

论文标题：

Fast Gradient Projection Method for Text Adversary Generation and Adversarial Training

论文链接：

https://arxiv.org/abs/2008.03709

1. 引言

本文是关于文本类对抗样本的生成的文章。要清楚的是 由于图片和文本数据内在的不同，用于图像的对抗攻击方法无法直接应用于文本数据上。

首先图像数据是连续的（准确地说是近似连续，因为图像像素值是 0 到 255 的整数值，但是如果输出的像素值是浮点数可以进行取整操作）， 但文本数据是离散的（比如有一个 one-hot 编码为 000001 表示的”道”字，那么编码 000010 表示的字与道字不存在连续性）。

这也就是为什么当前文本生成图像整体的生成质量普遍不高的原因，因为不能很好地将图像的连续空间与文本的离散空间统一起来。

其次，仅仅对像素值进行微小的改变就可以造成图像数据的扰动，而且这种扰动是很难被人眼察觉的。但是对于文本的对抗攻击中，小的扰动很容易被察觉，但人类同样能猜出本来表达的意义。

因此 NLP 模型需要对可辨识的特征鲁棒，而不像视觉只需要对不太重要的特征鲁棒。现有的文本攻击方法虽然有效，但还不足以应用于实际的文本对抗训练中，本文提出了一种基于同义词替换的快速梯度投影方法（FGPM），我对 FGPM 方法进行详细解读。

2. 当前文本对抗样本的研究

引言中已经提及到在文本域中，词法、语法和语义的约束以及离散的输入空间使得文本对抗样本的生成变得更加困难。目前的攻击方法包括字符级攻击，单词级攻击还有句子级攻击。为了方便查阅我对这些文章进行了汇总具体如下所示：字符级的攻击论文有：

论文标题：

Deep Text Classification Can be Fooled

论文链接：

https://www.ijcai.org/Proceedings/2018/0585.pdf

论文标题：

TextBugger: Generating Adversarial Text Against Real-world Applications

论文链接：

https://arxiv.org/abs/1812.05271

论文标题：

HotFlip: White-Box Adversarial Examples for Text Classification

论文链接：

https://www.aclweb.org/anthology/P18-2006.pdf

单词级的攻击论文有：

论文标题：

Crafting Adversarial Input Sequences for Recurrent Neural Networks

论文链接：

https://arxiv.org/abs/1604.08275

论文标题：

Towards Crafting Text Adversarial Samples

论文链接：

https://arxiv.org/abs/1707.02812

论文标题：

Adversarial Texts with Gradient Methods

论文链接：

https://arxiv.org/abs/1801.07175

论文标题：

Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples

论文链接：

https://arxiv.org/abs/1803.01128

句子级别的攻击论文有：

论文标题：

Adversarial Example Generation with Syntactically Controlled Paraphrase Networks

论文链接：

https://www.aclweb.org/anthology/N18-1170/

论文标题：

Semantically Equivalent Adversarial Rules for Debugging NLP models

论文链接：

https://www.aclweb.org/anthology/P18-1079/

最近的研究表明，对于字符级的攻击，拼写检查器可以很容易地修复干扰。对于单词级别的攻击，HotFlip 虽然可以进行攻击，但是由于句法和语义的限制，无法生成大量的对抗样本。

对于句子级别的攻击，通常是基于转述这样会使得对手生成需要更长的时间。综上所述，文本类的攻击要么面临基于梯度的扰动的语义保持质量的挑战，要么是基于查询的同义词替换的高计算量的成本。

3. 核心思想

该论文中作者提出了一种基于同义词替换的快速梯度投影方法（FGPM），该方法根据梯度大小和原单词与候选单词在梯度方向上的投影距离的乘积来计算每个替换的得分。

FGPM 具有一定的攻击性能和可转移性，同时比目前最快的文本攻击方法快 20 倍左右（时间上的统计）。作者还将通过 FGPM 生成的对抗样本与对抗训练结合起来作为一种模型防御的手段，并扩展到大型神经网络和数据集。

4. 模型介绍

论文作者形式化地定义了用于文本分类的对抗样本，并详细描述了所提出的对抗性攻击方法快速梯度投影法（FGPM）。

4.1 文本对抗样本

设表示包含所有可能输入文本的空间，表示输出空间。设表示由个单词组成的输入样本，是包含输入文本中所有可能单词的字典。分类器学习一个映射，使得对于任何一个样本，预测的标签为。

设表示类别上分类器的 logit 输出。攻击方在上添加一个不可察觉的扰动，目的是生成误导分类器的对抗样本，具体的优化形式如下所示：

其中，是表示扰动上界的超参数。是范数距离度量，其通常表示单词替换率，作为同义词替换引起的扰动的度量如下所示：

其中，是一个指示函数，，。

4.2 对抗样本的生成

现已有研究表明反拟合可以帮助去除原 glove 词向量空间中也被视为”相似词”的反义词，提高向量表示语义相似性的能力。在该论文中作者通过反拟合对 glove 词向量进行处理，并在嵌入空间中为每个单词定义一个同义词集，如下所示：

其中是一个超参数，它限制了嵌入空间中同义词的最大欧式距离。作者得到了每个单词的同义词集，本文中需要解决的最重要的问题就是同义词的选择和替换顺序的确定。

如下图所示，对于每个单词，选择一个单词，它对整个替换过程最为有利，论文中称其为最优同义词。由于寻找最佳同义词的很费劲，以往的研究是通过贪婪地选取一个同义词，使分类置信度最小化：

其中。选择过程是非常耗时的，为了降低基于深度模型的计算复杂度，本文作者利用梯度的大小与词嵌入空间中两个同义词在梯度方向上的投影距离的乘积来估计变化量，从而得到分类置信度。

具体如下图所示，首先计算每个单词的梯度，然后通过计算来估计变化量，并确定最优同义词，具体的公式如下所示：

对于在文本每个单词，作者使用上面的词替换策略选择其最优替代同义词，并获得一组候选集。

之后需要确定应该替换文本中的哪个单词。类似于这个词替换策略，最大的扰动值投影梯度的公式为：

为了方便理解，我将原论文的算法框架图重新进行了整理如下图所示，为了生成一个文本对抗样本，作者采用了同义词替换和替换顺序策略迭代地进行单词替换，直到分类器做出错误的预测。

为了避免在同一文本位置多次替换所造成的语义偏移，作者为原句子构造了一个候选同义词集，并将所有的替换词约束到该集合中，算法中还设置了单词替换率的上限，在每次迭代中，FGPM 只通过反向传播计算一次梯度。

5. FGPM的对抗训练

以前的研究已经表明将对抗样本纳入对抗训练可以提高模型的鲁棒性。但是这种改进是有限的。对抗性训练需要大量基于当前模型参数生成的对抗性样本才能更好地增强鲁棒性。

由于文本对抗样本生成效率低下，现有的基于同义词替换的文本攻击方法无法为对抗性训练提供足够的样本。鉴于 FGPM 的高效性，作者采用 FGPM 的对抗性训练来有效地提高文本分类的模型鲁棒性。具体的对抗训练的目标函数如下：

其中是 FGPM 基于当前模型参数生成的对抗样本。

6. 实验结果

作者用四种对抗性攻击方法，在三个涉及三个不同神经网络的基准数据集上对所提出的 FGPM 进行了实证评估。实验中由于攻击基线的效率较低，在每个数据集中随机抽取 200 个实例，并根据这些攻击方法针对不同的模型生成对抗样本。

6.1 数据集

本文的数据集为三个广泛使用的基准数据集分别是 AG’s News、DBPediaontology 和 Yahoo Answers。AG’s News 数据集由世界、体育、商业和科技四个类别的新闻文章组成，每个类别包括 30000 个训练样本和 1900 个测试示样本。

DBPedia 数据集是通过从 dbpedia2014 中挑选 14 个不重叠的类来构建的，DBPedia 是一个众包社区努力从 Wikipedia 中提取结构化信息。Yahoo Answers 是一个包含 10 个类的主题分类数据集，每个类包含 14 万个训练样本和 5000 个测试样本。

6.2 对抗攻击有效性评估

为了评估攻击的有效性，作者从攻击下的模型分类精度和可转移性两个方面与基线算法进行比较。如下表所示，作者给出了 FGPM 下的分类精度和三个标准数据集的基线攻击。

攻击方法越有效，目标模型的分类精度越低。可以观察到 FGPM 比其他基于 DBPedia 数据集的 CNN 分类方法降低了更多的分类准确率，说明所提出的梯度投影技术显著提高了白盒攻击的有效性。

对抗样本的可迁移性是指通过在特定模型上生成对抗样本来降低不同模型的分类精度的能力，这是现实世界应用中的另一个严重威胁。为了说明 FGPM 的可转移性，作者在每种模型上通过不同的攻击方法和在这些对抗样本上评估其他模型的分类精度。如下表所示，FGPM 生成的对抗样本通常产生次优的可迁移性性。

文本对抗样本中攻击效率对于评估攻击方法也很重要，尤其是当将攻击作为一种防御方法纳入对抗训练时。对抗训练需要高效训练才能有效地提高模型的鲁棒性。

如下表所示，FGPM 生成 200 个对抗样本的平均时间是 GSA 的近 20 倍，是基于同义词替换的第二快攻击，但 GSA 攻击性能比 FGPM 差，可传迁移也较低。FGPM 平均比 IGA 快 970 倍，IGA 对分类精度的影响最大，综合来说，FGPM 在攻击效果和时间消耗都是可观的。

如下表所示。对于常规训练，在不同的对抗性攻击下，模型在所有数据集上的分类精度都会急剧下降。相比之下，SEM 和 TF 都能稳定有效地提高模型在所有模型和数据集中的鲁棒性。

一个好的防御方法不仅要防御对抗性攻击，还要抵抗对抗性可迁移性。为了评估各模型对敌方示例可转移性的阻断能力，作者在 DBPedia 上正常训练的情况下，对不同攻击方法生成的对抗样本进行分类精度评估。如下表所示，TF 比常规训练和防御基准算法更成功地阻止了对抗样本的可迁移性。

更多阅读