无词典中文特征词自动抽取的桥接模式滤除算法

被引:1
作者
宣照国
党延忠
机构
[1] 大连理工大学系统工程研究所
关键词
自动分词; 桥接模式滤除算法; 中文信息处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理应用,如文本分类、文本自动摘要等。
引用
收藏
页码:168 / 170
页数:3
相关论文
共 5 条
[1]   汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[2]   一种基于后缀数组的无词典分词方法 [J].
张长利 ;
赫枫龄 ;
左万利 .
吉林大学学报(理学版), 2004, (04) :548-553
[3]   一种中文文档的非受限无词典抽词方法 [J].
金翔宇 ;
孙正兴 ;
张福炎 .
中文信息学报, 2001, (06) :33-39
[4]   一种基于N-gram模型和机器学习的汉语分词算法 [J].
吴应良 ;
韦岗 ;
李海洲 .
电子与信息学报, 2001, (11) :1148-1153
[5]   无词典高频字串快速提取和统计算法研究 [J].
韩客松 ;
王永成 ;
陈桂林 .
中文信息学报, 2001, (02) :23-30