基于关键词语的文本特征选择及权重计算方案

被引:13
作者
刘里
何中市
机构
[1] 重庆大学计算机学院
关键词
文本分类; 向量空间模型; 特征提取; 权重计算; 支持向量机;
D O I
10.16208/j.issn1000-7024.2006.06.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。
引用
收藏
页码:934 / 936
页数:3
相关论文
共 3 条
[1]   自然语言处理中词语上下文有效范围的定量描述 [J].
鲁松 ;
白硕 .
计算机学报, 2001, (07) :742-747
[2]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[3]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32