首页
学术期刊
AI智评
热点
更多
数据
一种基于提取上下文信息的分词算法
被引:9
作者
:
曾华琳
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学计算机科学系,厦门大学计算机科学系,厦门大学计算机科学系福建厦门,福建厦门,福建厦门
曾华琳
论文数:
引用数:
h-index:
机构:
李堂秋
史晓东
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学计算机科学系,厦门大学计算机科学系,厦门大学计算机科学系福建厦门,福建厦门,福建厦门
史晓东
机构
:
[1]
厦门大学计算机科学系,厦门大学计算机科学系,厦门大学计算机科学系福建厦门,福建厦门,福建厦门
来源
:
计算机应用
|
2005年
/ 09期
关键词
:
中文分词;
n元模型;
上下文信息;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。
引用
收藏
页码:2025 / 2027
页数:3
相关论文
共 4 条
[1]
基于EM算法的汉语自动分词方法
[J].
李家福
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
李家福
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
张亚非
.
情报学报,
2002,
(03)
:269
-272
[2]
统计语言模型能做什么?
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院北京
黄昌宁
.
语言文字应用,
2002,
(01)
:77
-84
[3]
最大概率分词问题及其解法
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
吴岩
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!
吴岩
;
王开铸
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!
王开铸
.
哈尔滨工业大学学报,
1998,
(06)
:37
-41
[4]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
←
1
→
共 4 条
[1]
基于EM算法的汉语自动分词方法
[J].
李家福
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
李家福
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
张亚非
.
情报学报,
2002,
(03)
:269
-272
[2]
统计语言模型能做什么?
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院北京
黄昌宁
.
语言文字应用,
2002,
(01)
:77
-84
[3]
最大概率分词问题及其解法
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
吴岩
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!
吴岩
;
王开铸
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!,哈尔滨工业大学计算机系!
王开铸
.
哈尔滨工业大学学报,
1998,
(06)
:37
-41
[4]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
←
1
→