汉语文本自动分词算法的研究

被引：11

作者：

何国斌

赵晶璐

机构：

[1] 西南大学计算机与信息科学学院

来源：

计算机工程与应用 | 2010年 / 03期

关键词：

自动分词; 分词算法; 字典; 歧义切分;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。

引用

页码：125 / 127+130 +130

页数：4

共 6 条

[1] 基于词索引的中文全文检索关键技术及其发展方向 [J].

熊回香 ;

夏立新 .

中国图书馆学报, 2007, (04) :45-49

[2] 汉语分词词典设计 [J].

翟伟斌 ;

周振柳 ;

蒋卓明 ;

许榕生 .

计算机工程与应用, 2007, (01) :1-2+26

[3] 汉语自动分词研究进展 [J].

文庭孝 .

图书与情报, 2005, (05) :56-65

[4] 一种基于提取上下文信息的分词算法 [J].

曾华琳 ;

李堂秋 ;

史晓东 .

计算机应用, 2005, (09) :2025-2027

[5] 使用最大熵模型进行中文文本分类 [J].

李荣陆 ;

王建会 ;

陈晓云 ;

陶晓鹏 ;

胡运发 .

计算机研究与发展, 2005, (01) :94-101

[6] 一种改进的快速分词算法 [J].

陈桂林 ;

王永成 ;

韩客松 ;

王刚 .

计算机研究与发展, 2000, (04) :418-424

← 1 →