一种基于主题的概率文档相关模型

被引:3
作者
贾西平
彭宏
郑启伦
石时需
机构
[1] 华南理工大学计算机科学与工程学院
[2] 广东技术师范学院计算机科学学院
基金
广东省自然科学基金;
关键词
主题; 主题相似性; 文档相关性; 文本挖掘;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型。实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务。
引用
收藏
页码:178 / 180+218 +218
页数:4
相关论文
共 2 条
[1]   A new retrieval model based on TextTiling for document similarity search [J].
Wan, XJ ;
Peng, YX .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2005, 20 (04) :552-558
[2]  
Salton,G.,McGill,M.J. Introduction to Modern Information Retrieval . 1983