基于LDA主题模型的短文本分类方法

被引:76
作者
张志飞
苗夺谦
高灿
机构
[1] 同济大学计算机科学与技术系
[2] 同济大学嵌入式系统与服务计算教育部重点实验室
基金
中央高校基本科研业务费专项资金资助;
关键词
短文本; 分类; K近邻; 相似度; 隐含狄列克雷分配;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。
引用
收藏
页码:1587 / 1590
页数:4
相关论文
共 6 条
[1]   一种基于WordNet的短文本语义相似性算法 [J].
翟延冬 ;
王康平 ;
张东娜 ;
黄岚 ;
周春光 .
电子学报, 2012, 40 (03) :617-620
[2]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[3]  
基于免疫的中文网络短文本聚类算法[J]. 贺涛,曹先彬,谭辉.自动化学报. 2009(07)
[4]   Short text similarity based on probabilistic topics [J].
Quan, Xiaojun ;
Liu, Gang ;
Lu, Zhi ;
Ni, Xingliang ;
Wenyin, Liu .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) :473-491
[5]  
A Web-Based Platform for User-Interactive Question-Answering[J] . Liu Wenyin,Tianyong Hao,Wei Chen,Min Feng.World Wide Web . 2009 (2)
[6]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)