一种面向文本分类的特征向量优化方法

被引:13
作者
郭正斌
张仰森
蒋玉茹
机构
[1] 北京信息科技大学智能信息处理研究所
关键词
机器学习; Mahout; 特征向量; 向量优化; 文本分类;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。
引用
收藏
页码:2299 / 2302+2348 +2348
页数:5
相关论文
共 18 条
[1]  
一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究.[D].王子慕.吉林大学.2015, 09
[2]  
文本分类中的关键技术研究.[D].张俊丽.华中师范大学.2008, 09
[3]  
Deep feature weighting for naive Bayes and its application to text classification.[J].Liangxiao Jiang;Chaoqun Li;Shasha Wang;Lungan Zhang.Engineering Applications of Artificial Intelligence.2016,
[4]   Open-categorical text classification based on multi-LDA models [J].
Fu, Ruiji ;
Qin, Bing ;
Liu, Ting .
SOFT COMPUTING, 2015, 19 (01) :29-38
[5]  
Attribute weighted Naive Bayes classifier using a local optimization.[J].Sona Taheri;John Yearwood;Musa Mammadov;Sattar Seifollahi.Neural Computing and Applications.2014, 5
[6]   一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法 [J].
马宾 ;
殷立峰 .
现代图书情报技术, 2015, (02) :78-84
[7]   基于机器学习的自动文摘研究综述 [J].
曹洋 ;
成颖 ;
裴雷 .
图书情报工作, 2014, 58 (18) :122-130
[8]   用于大数据分类的KNN算法研究 [J].
耿丽娟 ;
李星毅 .
计算机应用研究, 2014, 31 (05) :1342-1344+1373
[9]   文本分类中的特征降维方法研究 [J].
张玉芳 ;
万斌候 ;
熊忠阳 .
计算机应用研究, 2012, 29 (07) :2541-2543
[10]   文本自动分类技术研究综述 [J].
庞观松 ;
蒋盛益 .
情报理论与实践, 2012, (02) :123-128