基于信息熵和词频分布变化的术语抽取研究

被引:20
|
作者
李丽双
王意文
黄德根
机构
[1] 大连理工大学计算机学院
关键词
术语抽取; 信息熵; 词频分布变化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在分别研究了基于信息熵和基于词频分布变化的术语抽取方法的情况下,该文提出了一种信息熵和词频分布变化相结合的术语抽取方法。信息熵体现了术语的完整性,词频分布变化体现了术语的领域相关性。通过应用信息熵,即将信息熵结合到词频分布变化公式中进行术语抽取,且应用简单语言学规则过滤普通字符串。实验表明,在汽车领域的语料上,应用该方法抽取出1 300个术语,其正确率达到73.7%。结果表明该方法对低频术语有更好的抽取效果,同时抽取出的术语结构更完整。
引用
收藏
页码:82 / 87
页数:6
相关论文
共 12 条