共 4 条
汉蒙统计机器翻译中的形态学方法研究
被引:10
作者:
杨攀
[1
,2
]
张建
[1
]
李淼
[1
]
乌达巴拉
[1
]
雪艳
[3
]
机构:
[1] 中国科学院合肥智能机械研究所
[2] 中国科学技术大学信息科学技术学院
[3] 内蒙古大学蒙古学学院
来源:
关键词:
计算机应用;
中文信息处理;
形态学;
统计机器翻译;
语料库;
统计模型;
解码;
D O I:
暂无
中图分类号:
TP391.2 [翻译机];
学科分类号:
081203 ;
0835 ;
摘要:
该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。
引用
收藏
页码:50 / 57
页数:8
相关论文

