共 3 条
面向中文文本分类的词级对抗样本生成方法
被引:18
作者:
仝鑫
[1
]
王罗娜
[2
]
王润正
[1
]
王靖亚
[1
]
机构:
[1] 中国人民公安大学信息网络安全学院
[2] 北京字节跳动科技有限公司
来源:
关键词:
对抗样本;
自然语言处理;
中文文本分类;
黑盒攻击;
人工智能安全;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
针对基于深度学习方法的中文文本分类模型的鲁棒性问题,文章提出一种词级黑盒对抗样本生成方法CWordAttacker。该算法采用定向词删除评分机制,能够在模型内部细节未知的情况下定位显著影响分类结果的关键词,并使用繁体、拼音替换等多种攻击策略生成与原句语义一致的对抗样本,可完成定向和非定向两种攻击模式。在情感、垃圾短信和新闻分类数据集上针对LSTM、TextCNN和带注意力的CNN模型进行测试的结果表明:CWordAttacker能够以较小的扰动大幅度降低靶机模型准确率。
引用
收藏
页码:12 / 16
页数:5
相关论文

