自动构建时间基元规则库的中文时间表达式识别

被引:16
作者
邬桐
周雅倩
黄萱菁
吴立德
机构
[1] 复旦大学计算机科学技术学院
关键词
计算机应用; 中文信息处理; 时间表达式识别; 时间基元; Timex2; 错误驱动; 正则表达式;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。
引用
收藏
页码:3 / 10
页数:8
相关论文
共 5 条
[1]   基于启发式错误驱动学习的中文时间表达式识别 [J].
贺瑞芳 ;
秦兵 ;
潘越群 ;
刘挺 ;
李生 .
高技术通讯, 2008, 18 (12) :1258-1262
[2]   中文时间信息的TIMEX2自动标注 [J].
林静 ;
曹德芳 ;
苑春法 .
清华大学学报(自然科学版), 2008, (01) :117-120
[3]   基于依存分析和错误驱动的中文时间表达式识别 [J].
贺瑞芳 ;
秦兵 ;
刘挺 ;
潘越群 ;
李生 .
中文信息学报, 2007, (05) :36-40
[4]  
Automatic TIMEX2 tagging of Korean news[J] . Seok Bae Jang,Jennifer Baldwin,Inderjeet Mani.ACM Transactions on Asian Language Information Processing (TALIP) . 2004 (1)
[5]  
A System for Extraction of Temporal Expressions from French Texts Based on Syntactic and Semantic Constraints .2 N. Vazov. Proceedings of ACL-2001: Workshop on Temporal and Spatial Information Processing . 2001