共 10 条
一种基于后缀数组的无词典分词方法
被引:15
作者:

张长利
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院

赫枫龄
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院

左万利
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院
机构:
[1] 吉林大学计算机科学与技术学院
[2] 吉林大学计算机科学与技术学院 长春
[3] 长春
来源:
关键词:
中文信息处理;
中文自动分词;
后缀数组;
散列表;
D O I:
10.13413/j.cnki.jdxblxb.2004.04.015
中图分类号:
TP391.12 [];
学科分类号:
081203 ;
0835 ;
摘要:
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
引用
收藏
页码:548 / 553
页数:6
相关论文
共 10 条
[1]
新一代网络搜索引擎系统CHINAVIVI的实现
[J].
赫枫龄
;
陶文学
;
李凯
;
周力
;
左万利
.
吉林大学学报(理学版),
2003, (02)
:192-195

赫枫龄
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院

陶文学
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院

李凯
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院

周力
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院

左万利
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学计算机科学与技术学院
[2]
相连字符的分割算法
[J].
董险峰
;
邢罡
;
马驷良
.
吉林大学学报(理学版),
2003, (01)
:6-11

董险峰
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学数学科学学院

邢罡
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学数学科学学院

马驷良
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学数学科学学院
[3]
基于统计的无词典分词方法
[J].
傅赛香
;
袁鼎荣
;
黄柏雄
;
钟智
.
广西科学院学报,
2002, (04)
:252-255+264

傅赛香
论文数: 0 引用数: 0
h-index: 0
机构: 中国科学院计算技术研究所智能信息处理开放实验室

袁鼎荣
论文数: 0 引用数: 0
h-index: 0
机构: 中国科学院计算技术研究所智能信息处理开放实验室

黄柏雄
论文数: 0 引用数: 0
h-index: 0
机构: 中国科学院计算技术研究所智能信息处理开放实验室

钟智
论文数: 0 引用数: 0
h-index: 0
机构: 中国科学院计算技术研究所智能信息处理开放实验室
[4]
中文文本挖掘中的无词典分词的算法及其应用
[J].
胥桂仙
;
苏筱蔚
;
陈淑艳
.
吉林工学院学报(自然科学版),
2002, (01)
:16-18

胥桂仙
论文数: 0 引用数: 0
h-index: 0
机构: 吉林工学院计算机科学与工程学院

苏筱蔚
论文数: 0 引用数: 0
h-index: 0
机构: 吉林工学院计算机科学与工程学院

陈淑艳
论文数: 0 引用数: 0
h-index: 0
机构: 吉林工学院计算机科学与工程学院
[5]
基于统计方法的中文姓名识别
[J].
黄德根
;
杨元生
;
王省
;
张艳丽
;
钟万勰
.
中文信息学报,
2001, (02)
:31-37+44

黄德根
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连

杨元生
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连

王省
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连

张艳丽
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连

钟万勰
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
[6]
一种改进的快速分词算法
[J].
陈桂林
;
王永成
;
韩客松
;
王刚
.
计算机研究与发展,
2000, (04)
:418-424

陈桂林
论文数: 0 引用数: 0
h-index: 0
机构: 上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海

王永成
论文数: 0 引用数: 0
h-index: 0
机构: 上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[7]
基于最长次长匹配的汉语自动分词
[J].
黄德根
;
朱和合
;
王昆仑
;
杨元生
;
钟万勰
.
大连理工大学学报,
1999, (06)
:831-835

黄德根
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学工程力学研究所!辽宁大连

朱和合
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学工程力学研究所!辽宁大连

王昆仑
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学工程力学研究所!辽宁大连

杨元生
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学工程力学研究所!辽宁大连

钟万勰
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学工程力学研究所!辽宁大连
[8]
汉语词语边界自动划分的模型与算法
[J].
付国宏
;
王晓龙
;
不详
.
计算机研究与发展 ,
1999, (09)
:1142-1147

付国宏
论文数: 0 引用数: 0
h-index: 0
机构: 哈尔滨工业大学计算机科学与工程系!哈尔滨

王晓龙
论文数: 0 引用数: 0
h-index: 0
机构: 哈尔滨工业大学计算机科学与工程系!哈尔滨

不详
论文数: 0 引用数: 0
h-index: 0
机构: 哈尔滨工业大学计算机科学与工程系!哈尔滨
[9]
中文文本中抽取特征信息的区域与技术
[J].
刘开瑛
;
薛翠芳
;
郑家恒
;
周晓强
.
中文信息学报,
1998, (02)
:2-8

刘开瑛
论文数: 0 引用数: 0
h-index: 0
机构: 山西大学计算机科学系

论文数: 引用数:
h-index:
机构:

郑家恒
论文数: 0 引用数: 0
h-index: 0
机构: 山西大学计算机科学系

论文数: 引用数:
h-index:
机构:
