中文人称名词短语单复数自动识别

被引:3
作者
郎君
秦兵
刘挺
李正华
李生
机构
[1] 哈尔滨工业大学信息检索研究室
基金
国家高技术研究发展计划(863计划);
关键词
人称名词短语; 单复数; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automatic content extraction,ACE)语料上抽取得到人称名词短语的单复数信息,分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别,基于规则的方法,在一些知识资源的基础上定义了规则模板库,每条规则采用槽和槽值的方法米进行体现;机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征.两种方法分别达到了48.24%和87.48%的正确率.实验结果显示,基于规则的方法能够保证精确率而不能保证召回率,机器学习的方法可以更好地完成单复数信息的识别任务.
引用
收藏
页码:972 / 979
页数:8
相关论文
共 12 条
[1]   基于词汇支配度的汉语依存分析模型 [J].
刘挺 ;
马金山 ;
李生 .
软件学报, 2006, (09) :1876-1883
[2]   采用优先选择策略的中文人称代词的指代消解 [J].
李国臣 ;
罗云飞 .
中文信息学报, 2005, (04) :24-30
[3]   汉语篇章的指代消解浅论 [J].
王厚峰 .
语言文字应用, 2004, (04) :113-119
[4]   汉语名词数范畴的表现方式 [J].
张黎 .
汉语学习, 2003, (05) :28-32
[5]   语言信息处理技术中的最大熵模型方法 [J].
李素建 ;
刘群 ;
张志勇 ;
程学旗 .
计算机科学, 2002, (07) :108-110
[6]   知网和汉语研究 [J].
董振东 ;
董强 .
当代语言学, 2001, (01) :33-44+77
[7]   汉语中人称代词的消解研究 [J].
王厚峰 ;
何婷婷 .
计算机学报, 2001, (02) :136-143
[8]  
汉语指代消解及相关技术研究[D]. 王智强.北京邮电大学. 2006
[9]  
现代汉语分类词典[M]. 汉语大词典出版社 , 董大年主编, 1998
[10]  
同义词词林[M]. 上海辞书出版社 , 梅家驹等编, 1996