基于自适应中文分词和近似SVM的文本分类算法

被引:22
作者
冯永
李华
钟将
叶春晓
机构
[1] 重庆大学计算机学院
基金
中国博士后科学基金;
关键词
自适应中文分词; 近似支持向量机; 文本分类; 知识管理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。
引用
收藏
页码:251 / 254+293 +293
页数:5
相关论文
共 13 条
[1]   基于近似支持向量机的Web文本分类研究 [J].
钟将 ;
温罗生 ;
冯永 ;
叶春晓 ;
李志国 .
计算机科学, 2008, (03) :167-169+202
[2]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[3]   面向信息检索的自适应中文分词系统 [J].
曹勇刚 ;
曹羽中 ;
金茂忠 ;
刘超 .
软件学报, 2006, (03) :356-363
[4]   基于Multigram语言模型的主动学习中文分词 [J].
冯冲 ;
陈肇雄 ;
黄河燕 ;
关真珍 .
中文信息学报, 2006, (01) :50-58
[5]   基于加权近似支持向量机的文本分类 [J].
庄东 ;
陈英 .
清华大学学报(自然科学版), 2005, (S1) :1787-1790
[6]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[7]   国内中文分词技术研究新进展 [J].
冯书晓 ;
徐新 ;
杨春梅 ;
不详 .
情报杂志 , 2002, (11) :29-30
[8]   基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[9]   汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77
[10]   基于最长次长匹配的汉语自动分词 [J].
黄德根 ;
朱和合 ;
王昆仑 ;
杨元生 ;
钟万勰 .
大连理工大学学报, 1999, (06) :831-835