一种基于后缀数组的无词典分词方法

被引:15
作者
张长利
赫枫龄
左万利
机构
[1] 吉林大学计算机科学与技术学院
[2] 吉林大学计算机科学与技术学院 长春
[3] 长春
关键词
中文信息处理; 中文自动分词; 后缀数组; 散列表;
D O I
10.13413/j.cnki.jdxblxb.2004.04.015
中图分类号
TP391.12 [];
学科分类号
081203 ; 0835 ;
摘要
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
引用
收藏
页码:548 / 553
页数:6
相关论文
共 10 条
[1]   新一代网络搜索引擎系统CHINAVIVI的实现 [J].
赫枫龄 ;
陶文学 ;
李凯 ;
周力 ;
左万利 .
吉林大学学报(理学版), 2003, (02) :192-195
[2]   相连字符的分割算法 [J].
董险峰 ;
邢罡 ;
马驷良 .
吉林大学学报(理学版), 2003, (01) :6-11
[3]   基于统计的无词典分词方法 [J].
傅赛香 ;
袁鼎荣 ;
黄柏雄 ;
钟智 .
广西科学院学报, 2002, (04) :252-255+264
[4]   中文文本挖掘中的无词典分词的算法及其应用 [J].
胥桂仙 ;
苏筱蔚 ;
陈淑艳 .
吉林工学院学报(自然科学版), 2002, (01) :16-18
[5]   基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44
[6]   一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424
[7]   基于最长次长匹配的汉语自动分词 [J].
黄德根 ;
朱和合 ;
王昆仑 ;
杨元生 ;
钟万勰 .
大连理工大学学报, 1999, (06) :831-835
[8]   汉语词语边界自动划分的模型与算法 [J].
付国宏 ;
王晓龙 ;
不详 .
计算机研究与发展 , 1999, (09) :1142-1147
[9]   中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 .
中文信息学报, 1998, (02) :2-8
[10]   一种汉语分词方法 [J].
吴胜远 .
计算机研究与发展, 1996, (04) :306-311