突发事件Web新闻多层次自动分类方法

被引:5
作者
蔡华利
刘鲁
王理
机构
[1] 北京航空航天大学经济管理学院
关键词
文本分类; 分类器; 特征抽取; 多层次体系; 突发事件;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML文本向量空间模型及特征项的抽取方法.将该自动分类方法在甲型H1N1、法国空难以及汶川大地震等突发事件的Web新闻中进行了训练和测试.实验结果表明,所提方法的分类效果优于改进前的方法.
引用
收藏
页码:947 / 954
页数:8
相关论文
共 10 条
[1]   文本分类中特征选择方法研究 [J].
王维娜 ;
康耀红 ;
伍小芹 .
信息技术, 2008, 32 (12) :29-31
[2]   基于向量空间模型的多主题Web文本分类方法 [J].
周炎涛 ;
唐剑波 ;
吴正国 .
计算机应用研究, 2008, (01) :142-144
[3]   一种Web主题文本通用提取方法 [J].
蒲强 ;
李鑫 ;
刘启和 ;
杨国纬 .
计算机应用, 2007, (06) :1394-1396
[4]   基于向量空间模型的中文文本层次分类方法研究 [J].
肖雪 ;
何中市 .
计算机应用, 2006, (05) :1125-1126+1133
[5]   基于向量空间模型的网页文本表示改进算法 [J].
曾致远 ;
张莉 .
计算机工程, 2006, (03) :134-135+139
[6]   基于规则的自动分类在文本分类中的应用 [J].
李渝勤 ;
孙丽华 .
中文信息学报, 2004, (04) :9-14
[7]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[8]   Hierarchical Classification of Chinese Documents Based on N grams [J].
Zhou Shui geng Guan Ji hong He Yan xiang State Key Laboratory of Software Engineering Wuhan University Wuhan China School of Computer Science Wuhan University Wuhan China .
Wuhan University Journal of Natural Sciences, 2001, (Z1) :416-422
[9]  
Web自动文本分类技术研究综述[J]. 蒲筱哥.情报学报. 2009 (02)
[10]   COMPUTER EVALUATION OF INDEXING AND TEXT PROCESSING [J].
SALTON, G ;
LESK, ME .
JOURNAL OF THE ACM, 1968, 15 (01) :8-&