基于哈希算法的中文分词算法的改进

被引:6
作者
姚兴山
机构
[1] 南京大学信息管理系
关键词
中文分词; 中文信息处理; 数据结构; 哈希;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,提出一种新的词典结构,并根据新的词典给出新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。
引用
收藏
页码:60 / 62
页数:3
相关论文
共 7 条
[1]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[2]   藏文自动分词系统的设计与实现 [J].
陈玉忠 ;
李保利 ;
俞士汶 .
中文信息学报, 2003, (03) :15-20+65
[3]   一种基于语词的分词方法 [J].
赵曾贻 ;
陈天娥 ;
朱兰 .
苏州大学学报(自然科学), 2002, (03) :44-48
[4]   全二分最大匹配快速分词算法 [J].
李振星 ;
徐泽平 ;
唐卫清 ;
唐荣锡 .
计算机工程与应用, 2002, (11) :106-109
[5]   一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424
[6]   汉语自动分词实用系统CASS的设计和实现 [J].
揭春雨 ;
刘源 ;
梁南元 .
中文信息学报, 1991, (04) :27-34
[7]  
软件工程.[M].张海藩编著;.人民邮电出版社.2002,