一种基于密度的自适应最优LDA模型选择方法

被引:83
作者
曹娟
张勇东
李锦涛
唐胜
机构
[1] 中国科学院计算技术研究所虚拟现实技术实验室
关键词
主题模型; 主题; LDA; 密度;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论;基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构.
引用
收藏
页码:1780 / 1787
页数:8
相关论文
共 12 条
[1]  
LDA-based document models for ad-hoc retrieval. Xing Wei,Bruce Croft. SIGIR . 2006
[2]  
Correlated topic models. Blei D,Lafferty J. Advances in Neural Information Processing Systems18 . 2006
[3]  
Harmonium-based models for semantic video representation and classification. Yang J,Liu Y,Xing E P,Haupt mann A. Proceedings of the7th SI AMInternational Conference on Da-ta Mining . 2007
[4]  
Abayesian hierarchical model for learning natural scene categories. Li F-F,Perona P. Proceedings of the2005IEEE Computer Society Conference on Computer Vision and Pat-tern Recognition (CVPR) . 2005
[5]  
Mining associated text and i mages with dual-wing harmoniums. Xing E,Yan R,Haupt mann A. Proceedings of the21th Annual Conference on Uncertainty in Artificial Intelligence (UAI-05) . 2005
[6]  
Nonparametric bayes pachinko alloca-tion. Li W,McCallum A. Proceedings of the UAI . 2007
[7]  
Probabilistic latent semantic indexing. Hof mann T. Proc of SIGIR . 1999
[8]  
Pachinko allocation:DAG-structured mixture models of topic correlations. Li W,McCallum A. Proceedings of the In-ternational Conference on Machine Learning (ICML) . 2006
[9]  
Hierarchical dirichlet processes. Teh Y,Jordan M,Beal M,Blei D. Journal of the American Statistical Association . 2007
[10]  
Indexing by Latent Semantic Analysis. Deerwester S,Dumais ST,Landauer TK,et al. Journal of the American Society for Information Science . 1990