基于先秦语料库的古汉语地名自动识别模型构建研究

被引:41
作者
黄水清
王东波
何琳
机构
[1] 南京农业大学信息科学技术学院
关键词
古汉语地名; 条件随机场; 词汇特征; 先秦语料库;
D O I
10.13266/j.issn.0252-3116.2015.12.020
中图分类号
G254 [文献标引与编目];
学科分类号
1205 ; 120501 ;
摘要
[目的/意义]在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程]对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论]在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。
引用
收藏
页码:135 / 140
页数:6
相关论文
共 12 条
[1]   基于CRF和规则相结合的地理命名实体识别方法 [J].
何炎祥 ;
罗楚威 ;
胡彬尧 .
计算机应用与软件, 2015, 32 (01) :179-185+202
[2]   双层CRF与规则相结合的中文地名识别方法研究 [J].
孙虹 ;
陈俊杰 .
计算机应用与软件, 2014, 31 (11) :175-177+182
[3]   句类分析准则在作战文书地名识别中的应用 [J].
李颖 ;
王青海 ;
池毓焕 .
计算机工程与设计, 2013, 34 (08) :2903-2907
[4]   方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例 [J].
朱锁玲 ;
包平 .
图书馆论坛, 2012, 32 (04) :171-176
[5]   CRF与规则相结合的中文地名识别 [J].
李丽双 ;
党延忠 ;
廖文平 ;
黄德根 ;
张颖 .
大连理工大学学报, 2012, 52 (02) :285-289
[6]   基于统计的中文地名自动识别研究 [J].
邱莎 ;
阿圆 ;
王付艳 ;
丁海燕 .
计算机技术与发展, 2011, 21 (11) :35-38
[7]   方志类古籍地名识别及系统构建 [J].
朱锁玲 ;
包平 .
中国图书馆学报, 2011, 37 (03) :118-124
[8]   基于篇章的中文地名识别研究 [J].
唐旭日 ;
陈小荷 ;
许超 ;
李斌 .
中文信息学报, 2010, 24 (02) :24-32
[9]   中文基本地名识别 [J].
钱小飞 ;
侯敏 .
语言文字应用, 2009, (03) :129-135
[10]   基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41