基于篇章结构相似度的复制检测算法

被引:26
作者
金博 [1 ]
史彦军 [2 ]
滕弘飞 [2 ]
机构
[1] 大连理工大学计算机科学与工程系
[2] 大连理工大学机械工程学院
关键词
学术论文; 复制检测; 抄袭识别; 数字指纹; 词频统计; 篇章结构;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
学术论文的复制检测研究对于知识产权保护和抑制抄袭侵权等行为有重要意义.国内外主要用数字指纹及关键词匹配等技术进行论文的复制检测.为解决目前中文复制检测难题,给出了一种基于篇章结构相似度的中文学术论文复制检测算法及其问题的数学模型.在分析论文篇章结构的基础上,利用数字指纹和词频统计等技术,经编程实现,用于论文的全抄、部分抄袭和拼抄等抄袭现象的初步检测.与基于全文数字指纹和基于全文词频统计的检测方法相比较,更适用于要求较准确的论文复制检测.
引用
收藏
页码:125 / 130
页数:6
相关论文
共 6 条
[1]   抄袭论文识别研究与进展 [J].
史彦军 ;
滕弘飞 ;
金博 .
大连理工大学学报, 2005, (01) :50-57
[2]   自然语言文档复制检测研究综述 [J].
鲍军鹏 ;
沈钧毅 ;
刘晓东 ;
宋擒豹 .
软件学报, 2003, (10) :1753-1760
[3]   一种篇章结构指导的中文Web文档自动摘要方法 [J].
王继成 ;
武港山 ;
周源远 ;
张福炎 .
计算机研究与发展, 2003, (03) :398-405
[4]   数字商品非法复制和扩散的监测机制 [J].
宋擒豹 ;
沈钧毅 ;
不详 .
计算机研究与发展 , 2001, (01) :121-125
[5]   一种混合型的汉语篇章结构自动分析方法 [J].
张益民 ;
陆汝占 ;
沈李斌 .
软件学报, 2000, (11) :1527-1533
[6]  
Finding similar files in a large file system. UDI M. 1994 Winter USENIX Technical Conference . 1994