面向中文文本分类的词级对抗样本生成方法

被引:18
作者
仝鑫 [1 ]
王罗娜 [2 ]
王润正 [1 ]
王靖亚 [1 ]
机构
[1] 中国人民公安大学信息网络安全学院
[2] 北京字节跳动科技有限公司
关键词
对抗样本; 自然语言处理; 中文文本分类; 黑盒攻击; 人工智能安全;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对基于深度学习方法的中文文本分类模型的鲁棒性问题,文章提出一种词级黑盒对抗样本生成方法CWordAttacker。该算法采用定向词删除评分机制,能够在模型内部细节未知的情况下定位显著影响分类结果的关键词,并使用繁体、拼音替换等多种攻击策略生成与原句语义一致的对抗样本,可完成定向和非定向两种攻击模式。在情感、垃圾短信和新闻分类数据集上针对LSTM、TextCNN和带注意力的CNN模型进行测试的结果表明:CWordAttacker能够以较小的扰动大幅度降低靶机模型准确率。
引用
收藏
页码:12 / 16
页数:5
相关论文
共 3 条
[1]   对抗样本生成技术综述 [J].
潘文雯 ;
王新宇 ;
宋明黎 ;
陈纯 .
软件学报, 2020, 31 (01) :67-81
[2]   面向中文文本倾向性分类的对抗样本生成方法 [J].
王文琦 ;
汪润 ;
王丽娜 ;
唐奔宵 .
软件学报, 2019, 30 (08) :2415-2427
[3]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780