基于质子串分解的中文术语自动抽取

被引:19
作者
何婷婷 [1 ]
张勇 [2 ]
机构
[1] 清华大学软件学院
[2] 华中师范大学计算机科学系
关键词
质子串分解; 术语自动抽取; C-value; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。
引用
收藏
页码:188 / 190
页数:3
相关论文
共 1 条
[1]   基于开放式语料的汉语术语的自动抽取 [C]. 
刘建舟 ;
何婷婷 ;
姬东鸿 ;
刘晓华 .
20th International Conference on Computer Processing of Oriental Languages
,1600