基于最优文档嵌入的《红楼梦》作者辨析

被引:2
作者
薛扬 [1 ,2 ]
梁循 [1 ,2 ]
谢华伦 [1 ,2 ]
杜玮 [1 ]
机构
[1] 中国人民大学信息学院
[2] 北大方正集团有限公司数字出版技术国家重点实验室
关键词
红楼梦; 作者识别; 文档嵌入; 最优维度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了"红楼梦"前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。
引用
收藏
页码:97 / 110
页数:14
相关论文
共 24 条
[1]   从信息论角度探讨《红楼梦》的作者 [J].
徐秉铮 ;
蔡伟鸿 .
中文信息学报, 1990, (02) :1-5
[2]  
Genetic heuristic development:Feature selection for author identification. Adams J,Williams H,Carter J,et al. Proceedings of the 2013IEEE Symposium on Computational Intelligence in Biometrics and Identity Management (CIBIM) . 2013
[3]  
Building character graphs and dividing communtities in Chinese novels based on graph data extracton:community divistion for character emotional polarity networks. Zhao X,Liang X,Tang F,et al. IEEEAccess . 2020
[4]  
Distributed representations of sentences and documents. Le Q,Mikolov T. Proceedings of the 31st International Conference on Machine Learning(ICML-14) . 2014
[5]   科技文摘创新点语义识别与分类方法研究 [J].
温浩 .
情报学报, 2019, (03) :249-256
[6]  
Author Identification using Sequential Minimal Optimization with rule-based Decision Tree on Indian Literature in Marathi[J] . Kale Sunil Digamberrao,Rajesh S. Prasad. &nbspProcedia Computer Science . 2018
[8]  
Automatic gender identification of author of Russian text by machine learning and neural net algorithms in case of gender deception[J] . Alexander Sboev,Ivan Moloshnikov,Dmitry Gudovskikh,Anton Selivanov,Roman Rybka,Tatiana Litvinova. &nbspProcedia Computer Science . 2018
[9]   基于降噪自编码器特征学习的作者识别及其在《西游记》诗词上的应用 [J].
范亚超 ;
罗天健 ;
周昌乐 .
厦门大学学报(自然科学版), 2018, 57 (06) :884-889
[10]   从高频词等级相关角度探析《红楼梦》作者 [J].
马创新 ;
陈小荷 .
中文信息学报, 2018, (11) :97-102