基于统计的中文地名自动识别研究

被引:13
作者
邱莎 [1 ,2 ]
阿圆 [1 ]
王付艳 [1 ]
丁海燕 [3 ]
机构
[1] 昆明学院信息技术学院
[2] 复旦大学计算机科学技术学院
[3] 云南大学信息学院
关键词
中文地名识别; 条件随机场; 特征模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词。文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究。在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别。多次闭合测试和开放测试结果F1值为90%左右,识别效果良好。
引用
收藏
页码:35 / 38
页数:4
相关论文
共 9 条
[1]  
基于条件随机域的中文命名实体识别.[A].史树敏;王志强;周浪;冯冲;黄河燕;.第三届学生计算语言学研讨会.2006,
[2]   CRF与规则相结合的地理空间命名实体识别 [J].
鞠久朋 ;
张伟伟 ;
宁建军 ;
周国栋 .
计算机工程, 2011, 37 (07) :210-212+215
[3]   HMM在自然语言处理领域中的应用研究 [J].
韩普 ;
姜杰 .
计算机技术与发展, 2010, 20 (02) :245-248+252
[4]   基于条件随机场的中文地名识别 [J].
王凡秀 .
中国西部科技, 2008, (28) :8+3-8
[5]   基于小规模尾字特征的中文命名实体识别研究 [J].
冯元勇 ;
孙乐 ;
张大鲲 ;
李文波 .
电子学报, 2008, (09) :1833-1838
[6]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[7]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[8]   用支持向量机进行中文地名识别的研究 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
小型微型计算机系统, 2005, (08) :1416-1419
[9]   基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41