基于复合加权LDA模型的书目信息分类方法研究

被引:12
作者
李湘东
丁丛
高凡
机构
[1] 武汉大学信息管理学院
关键词
文本分类; LDA模型; 特征加权; 书目信息; 文本体例结构;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的分类性能优于仅考虑其中一种特征加权策略的LDA分类方法。
引用
收藏
页码:352 / 360
页数:9
相关论文
共 16 条
[1]   LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比 [J].
李湘东 ;
潘练 .
信息资源管理学报, 2015, 5 (04) :24-31+46
[2]   一种基于加权LDA模型和多粒度的文本特征选择方法 [J].
李湘东 ;
巴志超 ;
黄莉 .
现代图书情报技术 , 2015, (05) :42-49
[3]   LDA模型下书目信息分类系统的研究与实现 [J].
李湘东 ;
廖香鹏 ;
黄莉 .
现代图书情报技术, 2014, (05) :18-25
[4]   基于加权隐含狄利克雷分配模型的新闻话题挖掘方法 [J].
李湘东 ;
巴志超 ;
黄莉 .
计算机应用, 2014, 34 (05) :1354-1359
[5]   机器学习在中文期刊论文自动分类研究中的应用 [J].
王昊 ;
叶鹏 ;
邓三鸿 .
现代图书情报技术, 2014, (03) :80-87
[6]   一种面向多文本集的部分比较性LDA模型 [J].
谭文堂 ;
王桢文 ;
殷风景 ;
葛斌 ;
肖卫东 .
计算机研究与发展, 2013, (09) :1943-1953
[7]   基于LDA主题模型的短文本分类方法 [J].
张志飞 ;
苗夺谦 ;
高灿 .
计算机应用, 2013, 33 (06) :1587-1590
[8]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用, 2011, 47 (13) :150-153
[9]   基于改进VSM的Web文本分类方法 [J].
胡晓 ;
王理 ;
潘守慧 .
情报杂志, 2010, 29 (05) :144-147
[10]   一种改进的LDA主题模型 [J].
张小平 ;
周雪忠 ;
黄厚宽 ;
冯奇 ;
陈世波 ;
焦宏官 .
北京交通大学学报, 2010, (02) :111-114