基于语义分析的作者身份识别方法研究

被引:25
作者
武晓春
黄萱菁
吴立德
机构
[1] 复旦大学计算机科学与工程系
关键词
计算机应用; 中文信息处理; 身份识别; 语义分析; 文档相似度;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,其中基于标点符号和最常见功能词频数的分析方法受到较为普遍的认同。本文依据文体学理论,利用HowNet知识库,提出一种新的基于词汇语义分析的相似度评估方法,有效利用了功能词以外的其他词汇,达到了较好的身份识别性能。
引用
收藏
页码:61 / 68
页数:8
相关论文
共 6 条
[1]   《红楼梦》成书新说 [J].
李贤平 .
复旦学报(社会科学版), 1987, (05) :3-16
[2]   从数理语言学看后四十回的作者——与陈炳藻先生商榷 [J].
陈大康 .
红楼梦学刊, 1987, (01) :293-318
[3]  
理论文体学[M]. 外语教学与研究出版社 , 胡壮麟编著, 2000
[4]  
离散数学教程[M]. 上海科学技术文献出版社 , 朱洪等编著, 1996
[5]  
W as the Earl of Oxford the true Shakespeare? .2 W ard E lliott,RobertValenza. A Computer-A ided Analy-sis Notes and Queries . 1991
[6]  
Autom atic TextCategorization in Term s ofGenre and Author .2 E fstath ios Stam atatos,N ikos Fakotak is,George.Kokk inak is. Computational L ingu istics . 2001