汉蒙统计机器翻译中的形态学方法研究

被引:10
作者
杨攀 [1 ,2 ]
张建 [1 ]
李淼 [1 ]
乌达巴拉 [1 ]
雪艳 [3 ]
机构
[1] 中国科学院合肥智能机械研究所
[2] 中国科学技术大学信息科学技术学院
[3] 内蒙古大学蒙古学学院
关键词
计算机应用; 中文信息处理; 形态学; 统计机器翻译; 语料库; 统计模型; 解码;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
081203 ; 0835 ;
摘要
该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。
引用
收藏
页码:50 / 57
页数:8
相关论文
共 4 条
[1]   基于实例的汉蒙机器翻译 [J].
侯宏旭 ;
刘群 ;
那顺乌日图 .
中文信息学报, 2007, (04) :65-72
[2]   单纯形算法在统计机器翻译Re-ranking中的应用 [J].
付雷 ;
刘群 .
中文信息学报, 2007, (03) :28-33
[3]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[4]   Statistical machine translation with scarce resources using morpho-syntactic information [J].
Niessen, S ;
Ney, H .
COMPUTATIONAL LINGUISTICS, 2004, 30 (02) :181-204