一种基于后缀数组的无词典分词方法

被引：15

作者：

张长利

赫枫龄

左万利

机构：

[1] 吉林大学计算机科学与技术学院

[2] 吉林大学计算机科学与技术学院长春

[3] 长春

来源：

吉林大学学报(理学版) | 2004年 / 04期

关键词：

中文信息处理; 中文自动分词; 后缀数组; 散列表;

D O I：

10.13413/j.cnki.jdxblxb.2004.04.015

中图分类号：

TP391.12 [];

学科分类号：

081203 ; 0835 ;

摘要：

提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.

引用

页码：548 / 553

页数：6

共 10 条

[1] 新一代网络搜索引擎系统CHINAVIVI的实现 [J].

赫枫龄 ;

陶文学 ;

李凯 ;

周力 ;

左万利 .

吉林大学学报(理学版), 2003, (02) :192-195

[2] 相连字符的分割算法 [J].

董险峰 ;

邢罡 ;

马驷良 .

吉林大学学报(理学版), 2003, (01) :6-11

[3] 基于统计的无词典分词方法 [J].

傅赛香 ;

袁鼎荣 ;

黄柏雄 ;

钟智 .

广西科学院学报, 2002, (04) :252-255+264

[4] 中文文本挖掘中的无词典分词的算法及其应用 [J].

胥桂仙 ;

苏筱蔚 ;

陈淑艳 .

吉林工学院学报(自然科学版), 2002, (01) :16-18

[5] 基于统计方法的中文姓名识别 [J].

黄德根 ;

杨元生 ;

王省 ;

张艳丽 ;

钟万勰 .

中文信息学报, 2001, (02) :31-37+44

[6] 一种改进的快速分词算法 [J].

陈桂林 ;

王永成 ;

韩客松 ;

王刚 .

计算机研究与发展, 2000, (04) :418-424

[7] 基于最长次长匹配的汉语自动分词 [J].

黄德根 ;

朱和合 ;

王昆仑 ;

杨元生 ;

钟万勰 .

大连理工大学学报, 1999, (06) :831-835

[8] 汉语词语边界自动划分的模型与算法 [J].

付国宏 ;

王晓龙 ;

不详 .

计算机研究与发展 , 1999, (09) :1142-1147

[9] 中文文本中抽取特征信息的区域与技术 [J].

刘开瑛 ;

薛翠芳 ;

郑家恒 ;

周晓强 .

中文信息学报, 1998, (02) :2-8

[10] 一种汉语分词方法 [J].

吴胜远 .

计算机研究与发展, 1996, (04) :306-311

← 1 →