共 36 条
基于正态分布的词频分析法高频词阈值研究
被引:57
作者:
安兴茹
机构:
[1] 内蒙古科技大学图书馆
来源:
关键词:
词频分析法;
正态分布;
高频词;
齐普夫定律;
D O I:
暂无
中图分类号:
G353.1 [情报资料的分析和研究];
学科分类号:
1205 ;
摘要:
词频分析法高频关键词或主题词的界定是开展信息分析的重要基础。首先,在文献统计分析的基础上,总结了目前词频分析法高频词确定的四种方法:TOPN方法、WF>=M方法、%WF=P方法以及T计算方法,这些方法存在着经验性、随意性、理论基础和适用性上的问题。接着,通过实证方法,验证了关键词和主题词在文献库中的分布符合正态分布,并根据正态分布的特性,提出了词频分析法高频词阈值的F计算方法。最后,在多个数据样本基础上,将F方法与T方法进行了对比分析,认为基于正态分布的高频词阈值F计算方法在理论基础和适用性上都能达到较好的效果。
引用
收藏
页码:129 / 136
页数:8
相关论文

