一种基于互信息的串扫描中文文本分词方法

被引:10
作者
赵秦怡 [1 ]
王丽珍 [2 ]
机构
[1] 大理学院数学与计算机学院
[2] 云南大学信息学院
关键词
中文分词; 词频; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文分词技术是中文信息处理的基础环节,在互信息原理的基础上提出了一个基于统计的中文文本分词方法。该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性,实验结果说明该算法简单且具有良好的精度及查全率。
引用
收藏
页码:161 / 162+172 +172
页数:3
相关论文
共 5 条
[1]   中文分词算法研究综述 [J].
张启宇 ;
朱玲 ;
张雅萍 .
情报探索, 2008, (11) :53-56
[2]   中文分词算法研究 [J].
刘件 ;
魏程 .
微计算机应用, 2008, (08) :11-16
[3]   一种适用于专业搜索引擎的中文分词系统研究 [J].
王硕 ;
尤枫 ;
山岚 ;
赵恒永 .
计算机工程与应用 , 2008, (19) :142-145
[4]   自然语言检索中的中文分词技术研究进展及应用 [J].
何莘 ;
王琬芜 .
情报科学, 2008, (05) :787-791
[5]   中文信息检索引擎中的分词与检索技术 [J].
吴栋 ;
滕育平 .
计算机应用, 2004, (07) :128-131