中文文本分类中的特征词抽取方法

被引:16
作者
李晓红
机构
[1] 西北师范大学数学与信息科学学院
关键词
特征抽取; 无词典分词; 位置权重; 词条过滤; 文本分类;
D O I
10.16208/j.issn1000-7024.2009.17.042
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。
引用
收藏
页码:4127 / 4129
页数:3
相关论文
共 13 条
[11]   中文文本挖掘中的无词典分词的算法及其应用 [J].
胥桂仙 ;
苏筱蔚 ;
陈淑艳 .
吉林工学院学报(自然科学版), 2002, (01) :16-18
[12]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101
[13]   汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77