利用地名用字分析的中文地名识别处理

被引:7
作者
李诺 [1 ,2 ]
张全 [2 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院声学研究所
关键词
中文地名识别; 地名用字分析; 最大熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。
引用
收藏
页码:230 / 232
页数:3
相关论文
共 7 条
[1]   SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[2]   汉语自动分词中中文地名识别 [J].
高红 ;
黄德根 ;
杨元生 .
大连理工大学学报, 2006, (04) :576-581
[3]   基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[4]   基于NN/HMM混合模型的汉语地名识别系统 [J].
欧嘉致 ;
陈凯江 ;
李宗葛 ;
不详 .
计算机工程与应用 , 2002, (23) :220-222+228
[5]  
中文命名实体识别方法研究.[D].廖先桃.哈尔滨工业大学.2006, 12
[6]  
基于混合统计模型的汉语命名实体识别方法的研究与实现.[D].张晓艳.国防科学技术大学.2004, 03
[7]   一种在虚级联恢复过程实现无损添加删除的方法 [P]. 
周炼 ;
孙晓雷 ;
杨振力 ;
刘毅 ;
张亚涛 .
中国专利 :CN1761176B ,2006-04-19