汉语文本自动分词算法的研究

被引:11
作者
何国斌
赵晶璐
机构
[1] 西南大学计算机与信息科学学院
关键词
自动分词; 分词算法; 字典; 歧义切分;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。
引用
收藏
页码:125 / 127+130 +130
页数:4
相关论文
共 6 条
[1]   基于词索引的中文全文检索关键技术及其发展方向 [J].
熊回香 ;
夏立新 .
中国图书馆学报, 2007, (04) :45-49
[2]   汉语分词词典设计 [J].
翟伟斌 ;
周振柳 ;
蒋卓明 ;
许榕生 .
计算机工程与应用, 2007, (01) :1-2+26
[3]   汉语自动分词研究进展 [J].
文庭孝 .
图书与情报, 2005, (05) :56-65
[4]   一种基于提取上下文信息的分词算法 [J].
曾华琳 ;
李堂秋 ;
史晓东 .
计算机应用, 2005, (09) :2025-2027
[5]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[6]   一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424