基于降噪自编码器特征学习的作者识别及其在《西游记》诗词上的应用

被引:5
作者
范亚超
罗天健
周昌乐
机构
[1] 厦门大学信息科学与技术学院福建省类脑计算技术及应用重点实验室
关键词
降噪自编码器; 编码特征; 作者识别;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
由于作者归属问题较为复杂,采用传统自然语言处理模型难以完成作者识别.为了深入挖掘作者归属问题,首先采用降噪自编码器深度模型提取文本结构特征,再采用支持向量机分类器完成作者识别.模型的优势在于能够考虑未知文本特征的噪声多样性和复杂性,且能够重构添加噪声的原始文本输入.将该方法应用于吴承恩、王廷陈、薛蕙等人的诗词作者识别,识别准确率最高为78.2%,验证了该方法的有效性,进一步将该方法应用于《西游记》诗词作者识别.
引用
收藏
页码:884 / 889
页数:6
相关论文
共 14 条
[1]   一种基于复杂网络模型的作者身份识别方法 [J].
李晓军 ;
刘怀亮 ;
杜坤 .
图书情报工作, 2015, 59 (18) :102-107
[2]   基于聚类和分类的金庸与古龙小说风格分析 [J].
肖天久 ;
刘颖 .
中文信息学报, 2015, 29 (05) :167-177
[3]   《红楼梦》词和N元文法分析 [J].
肖天久 ;
刘颖 .
现代图书情报技术, 2015, (04) :50-57
[4]   《红楼梦》计量风格学研究 [J].
刘颖 ;
肖天久 .
红楼梦学刊, 2014, (04) :260-281
[5]   基于支持向量机技术的《红楼梦》作者研究 [J].
施建军 .
红楼梦学刊, 2011, (05) :35-52
[6]  
基于机器学习的古典诗词作者的判别研究[J]. 易勇,郑艳,何中市,李良炎. 心智与计算. 2007(03)
[7]   四百年《西游记》作者问题论争综述 [J].
杜贵晨 ;
王艳 .
泰山学院学报, 2006, (04) :19-25
[8]   《西游记》虚词“着”的词义探析 [J].
谢晓晖 .
湖南第一师范学报, 2004, (04) :74-76
[9]   《西游记》虚词“却”词义探 [J].
杨载武 .
贵州教育学院学报(社会科学版), 1994, (01) :28-34
[10]  
汉语语法纲要[M]. 中华书局 , 王力, 2014