基于聚类方法对特定领域术语的自动筛选

被引:7
作者
李勇
机构
[1] 襄樊学院电气信息工程系
关键词
CBC聚类方法; 术语筛选; 语料库; 术语抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
从大规模无标注的文本中获取特定领域的术语词典,通常采用的方法是从术语抽取器得到相关术语,而后使用手工的方式进行术语筛选,得到相关领域的术语。这需要大量的人力物力,并且标准无法统一。本文提出了一种利用CBC聚类方法从抽取的术语文本中自动剔除非此领域的术语,并且通过对训练语料库文本的不断丰富,还可以对新词进行识别,以扩大该领域的术语集。最后,通过对实验结果进行评测,显示了CBC聚类方法对术语筛选的良好效果。
引用
收藏
页码:64 / 66+134 +134
页数:4
相关论文
共 5 条
[1]   基于本体的中文信息检索模型 [J].
冯兰萍 ;
张继国 .
河海大学常州分校学报, 2004, (04) :40-42+46
[2]   基于免疫规划的K-means聚类算法 [J].
行小帅 ;
潘进 ;
焦李成 .
计算机学报, 2003, (05) :605-610
[3]   系统聚类分析中的遗传算法附视频 [J].
李琼 .
武汉交通科技大学学报, 2000, (03) :301-304
[4]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)
[5]   CONTEXTUAL CORRELATES OF SEMANTIC SIMILARITY [J].
MILLER, GA ;
CHARLES, WG .
LANGUAGE AND COGNITIVE PROCESSES, 1991, 6 (01) :1-28