使用最大熵模型进行中文文本分类

被引:93
作者
李荣陆
王建会
陈晓云
陶晓鹏
胡运发
机构
[1] 复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海,上海
关键词
文本分类; 最大熵模型; 特征; N-Gram;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.
引用
收藏
页码:94 / 101
页数:8
相关论文
共 2 条
[1]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90