中文网页语义标注:由句子到RDF表示

被引:31
作者
荆涛
左万利
孙吉贵
车海燕
机构
[1] 吉林大学计算机科学与技术学院
基金
国家自然科学基金重大项目;
关键词
自然语言处理; 依存关系; 类型标注; 关系抽取; 本体;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
语义网远景的实现需要自动化的语义标注方法.提出了一种在领域本体指导下,针对中文网页的语义标注方法.运用统计学方法与自然语言处理技术,以文档中句子为处理对象,采取识别和组合两个阶段来完成句子向RDF表示的映射.它具有以下特点:以统计方法获得领域相关词汇,构造领域词汇标注列表作为外部领域知识,降低对通用语言本体的依赖;显式的属性类型标注方法识别出句子中表达关系的词汇,标注为属性类型,利于后续关系抽取;构造句子的句法依存关系树(森林),按照依存关系对词汇进行组合,形成RDF陈述.实验结果显示此方法较基于主谓宾语法关系的语义标注方法更为有效.
引用
收藏
页码:1221 / 1231
页数:11
相关论文
共 8 条
[1]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[2]   基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[3]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[4]   基于混合模型的中文命名实体抽取系统 [J].
王睿 ;
张洁 ;
张由仪 ;
于禛 ;
姚天昉 .
清华大学学报(自然科学版), 2005, (S1) :1908-1914
[5]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[6]   中文金融新闻中公司名的识别 [J].
王宁 ;
葛瑞芳 ;
苑春法 ;
黄锦辉 ;
李文捷 .
中文信息学报, 2002, (02) :1-6
[7]  
Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J] . Jianfeng Gao,Mu Li,Chang-Ning Huang,Andi Wu.Computational Linguistics . 2005 (4)
[8]  
SemTag and seeker: Bootstrapping the Semantic Web via automatedsemantic annotation .2 Dill S,Tomlin J,et al. Proc of the12th Int’’l Conf on World Wide Web . 2003