中文文本分类中的特征词抽取方法

被引:16
作者
李晓红
机构
[1] 西北师范大学数学与信息科学学院
关键词
特征抽取; 无词典分词; 位置权重; 词条过滤; 文本分类;
D O I
10.16208/j.issn1000-7024.2009.17.042
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。
引用
收藏
页码:4127 / 4129
页数:3
相关论文
共 13 条
[1]   一种改进的文本特征选择方法的研究与设计 [J].
许高建 ;
胡学钢 ;
路遥 ;
涂立静 .
微型电脑应用, 2008, (05) :21-23+4
[2]   基于位置权重的文本分类 [J].
台德艺 ;
谢飞 ;
胡学钢 .
安徽水利水电职业技术学院学报, 2008, (01) :64-66
[3]   一种改进的高效分词词典机制 [J].
王东 ;
陈笑蓉 .
贵州大学学报(自然科学版), 2007, (04) :380-384+389
[4]   无词典中文特征词自动抽取的桥接模式滤除算法 [J].
宣照国 ;
党延忠 .
计算机应用研究, 2007, (07) :168-170
[5]   文本分类中特征降维方式的研究 [J].
伍建军 ;
康耀红 .
海南大学学报(自然科学版), 2007, (01) :62-66
[6]   汉语分词词典设计 [J].
翟伟斌 ;
周振柳 ;
蒋卓明 ;
许榕生 .
计算机工程与应用, 2007, (01) :1-2+26
[7]   一个面向文本分类的中文特征词自动抽取方法 [J].
付德宇 ;
代成琴 .
计算机工程与应用 , 2006, (15) :165-167
[8]   中文文本分类中的特征选择算法研究 [J].
胡佳妮 ;
徐蔚然 ;
郭军 ;
邓伟洪 .
光通信研究, 2005, (03) :44-46
[9]   基于改进贝叶斯模型的问题分类 [J].
张宇 ;
刘挺 ;
文勖 .
中文信息学报, 2005, (02) :100-105
[10]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32