《红楼梦》词和N元文法分析

被引:11
作者
肖天久
刘颖
机构
[1] 清华大学中国语言文学系
关键词
风格分析; 层次聚类; K-means聚类; N元文法;
D O I
暂无
中图分类号
H15 [写作、修辞];
学科分类号
0501 ; 050103 ;
摘要
【目的】研究《红楼梦》前八十回与后四十回的关系,从而判定《红楼梦》是否为一人所写。【方法】定量统计和定性分析相结合,比较前、中、后四十回的独有词;利用虚词、词及词类的N元文法模型、实词以及词长进行聚类;计算三个部分的相似度。【结果】证明前八十回与后四十回有差异。前八十回用词连贯性较高,更重视细节描写,长词较少,可读性更强;后四十回更重视动作和场景化描写,长词较多,可读性稍弱。【局限】仅限于词和N元文法,未能进一步考察语义、语篇等方面的特征。【结论】从词、词类、短语串和词类串等方面分析,前八十回与后四十回很可能并非一人所作。
引用
收藏
页码:50 / 57
页数:8
相关论文
共 9 条
[1]   《红楼梦》计量风格学研究 [J].
刘颖 ;
肖天久 .
红楼梦学刊, 2014, (04) :260-281
[2]   基于语言模型和特征分类的抄袭判定 [J].
李惠 ;
刘颖 .
计算机工程, 2013, 39 (05) :230-234
[3]   基于支持向量机技术的《红楼梦》作者研究 [J].
施建军 .
红楼梦学刊, 2011, (05) :35-52
[4]   基于语句节奏特征的作者身份识别研究 [J].
王少康 ;
董科军 ;
阎保平 .
计算机工程, 2011, 37 (09) :4-5+8
[6]   基于句类特征的作者写作风格分类研究 [J].
张运良 ;
朱礼军 ;
乔晓东 ;
张全 .
计算机工程与应用 , 2009, (22) :129-131+223
[7]   从数理语言学看后四十回的作者——与陈炳藻先生商榷 [J].
陈大康 .
红楼梦学刊, 1987, (01) :293-318
[8]  
信息检索导论[M]. 人民邮电出版社 , (美) 曼宁, 2010
[9]  
红楼梦[M]. 外语教学与研究出版社 , (清)曹雪芹原著, 1991