基于条件随机场模型和文本纠错的微博新词词性识别研究

被引:7
作者
韩彦昭 [1 ]
乔亚男 [1 ]
范亚平 [1 ]
李孟超 [2 ]
万迪昉 [3 ]
机构
[1] 西安交通大学电子与信息工程学院
[2] 西安交通大学软件学院
[3] 西安交通大学管理学院
关键词
条件随机场; 微博; 噪音数据; 谐音词; 词语纠正;
D O I
10.13232/j.cnki.jnju.2016.02.017
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.
引用
收藏
页码:353 / 360
页数:8
相关论文
共 15 条
[1]  
Learning representations for weakly supervised natural language processing tasks. Huang F,Ahuja A,Downey D,et al. Computational Linguistics . 2013
[2]  
Regularized structured perceptron for Chinese word segmentation POS tagging and parsing. Zhang K X,Zhou C L. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics . 2014
[3]  
Statistically-enhanced new word identification in a rule-based Chinese system. Wu A,Jiang Z X. Proceedings of the 2nd Workshop on Chinese Language Processing . 2000
[4]  
Hybrid methods for POS Guessing of Chinese unknown word. Lu X F. Proceedings of the ACL Student Research . 2005
[5]  
Conditional random fields: An introduction. H.M. Wallach. Technical Reports (CIS) . 2004
[6]  
Representation learning:a review and new perspectives. BENGIO Y,COURVILLE A,VINCENT P. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2013
[7]  
An introduction to conditional random fields. Sutton, Charles,McCallum, Andrew. Foundations and Trends in Machine Learning . 2011
[8]  
A maximum entropy model for part-of-speech tagging. Adwait Ratnaparkhi. Proceeding of the Conference on Empirical Methods in Natural Language Processing . 1996
[9]  
Coping with ambiguity and unknown words through probabilistic models. Ralph Weischedel,Marie Meteer,Richard Schwartz,Lance Ramshaw,Jeff Palmucci. Computational Linguistics . 1993
[10]   基于多知识源的中文词法分析系统 [J].
姜维 ;
王晓龙 ;
关毅 ;
赵健 .
计算机学报, 2007, (01) :137-145