汉蒙统计机器翻译中的形态学方法研究

被引：10

作者：

杨攀 ^{[1
,2
]}

张建 ^{[1
]}

李淼 ^{[1
]}

乌达巴拉 ^{[1
]}

雪艳 ^{[3
]}

机构：

[1] 中国科学院合肥智能机械研究所

[2] 中国科学技术大学信息科学技术学院

[3] 内蒙古大学蒙古学学院

来源：

中文信息学报 | 2009年 / 23卷 / 01期

关键词：

计算机应用; 中文信息处理; 形态学; 统计机器翻译; 语料库; 统计模型; 解码;

D O I：

暂无

中图分类号：

TP391.2 [翻译机];

学科分类号：

081203 ; 0835 ;

摘要：

该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。

引用

页码：50 / 57

页数：8

共 4 条

[1] 基于实例的汉蒙机器翻译 [J].