知识抽取中的停用词处理技术

被引:41
作者
化柏林
机构
[1] 中国科学技术信息研究所
关键词
知识抽取; 停用词; 中文分词; 自然语言处理; 文本信息分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。
引用
收藏
页码:48 / 51
页数:4
相关论文
共 10 条
[1]   信息检索用户查询语句的停用词过滤 [J].
熊文新 ;
宋柔 .
计算机工程, 2007, (06) :195-197
[2]   基于新的关键词提取方法的快速文本分类系统 [J].
罗杰 ;
陈力 ;
夏德麟 ;
王凯 .
计算机应用研究, 2006, (04) :32-34
[3]   中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340
[4]   文本自动分类系统文本预处理方法的研究 [J].
周钦强 ;
孙炳达 ;
王义 .
计算机应用研究, 2005, (02) :85-86
[5]   用隐马尔柯夫模型对汉语进行切分和标注排歧 [J].
刘颖 .
计算机工程与设计, 2001, (04) :58-62+68
[6]   汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6
[7]   书面汉语的自动分词与一个自动分词系统—CDWS [J].
梁南元 .
北京航空学院学报, 1984, (04) :97-104
[8]  
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
[9]   Some critical remarks on the stop word lists of ISI publications [J].
Tomov, DT .
JOURNAL OF DOCUMENTATION, 2001, 57 (06) :798-808
[10]   Stop word location and identification for adaptive text recognition [J].
Ho T.K. .
International Journal on Document Analysis and Recognition, 2000, 3 (1) :16-26