基于随机森林分类的微博机器用户识别研究

被引:20
作者
刘勘 [1 ]
袁蕴英 [1 ]
刘萍 [2 ]
机构
[1] 中南财经政法大学信息与安全工程学院
[2] 武汉大学信息管理学院
关键词
机器用户; 微博; 随机森林;
D O I
10.13209/j.0479-8023.2015.048
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对网络上机器用户大量散布谣言,发布虚假信息,误导网民舆论,严重影响网络环境的问题,以微博中的机器用户为研究对象,结合其自动化程度高、伪装能力强、信息发布有针对性的特点,从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标,利用信息熵、内容重复率等8个指标构建微博用户的特征向量,通过随机森林算法设计微博中机器用户的识别模型。最后,在真实的新浪微博数据集上进行验证,结果表明本模型识别机器用户的准确度达到96.7%,可以有效地区分微博中的机器用户和普通用户。
引用
收藏
页码:289 / 300
页数:12
相关论文
共 9 条
[1]   基于链路预测的微博用户关系分析 [J].
傅颖斌 ;
陈羽中 .
计算机科学, 2014, 41 (02) :201-205+244
[2]   微博中基于统计特征与双向投票的垃圾用户发现 [J].
丁兆云 ;
周斌 ;
贾焰 ;
汪祥 .
计算机研究与发展, 2013, (11) :2336-2348
[3]   基于重用检测的微博垃圾用户过滤算法 [J].
赵斌 ;
吉根林 ;
曲维光 ;
顾彦慧 .
南京大学学报(自然科学版), 2013, 49 (04) :456-464
[4]   多特征微博垃圾互粉检测方法 [J].
郭浩 ;
陆余良 ;
王宇 ;
杨斌 .
中国科技论文, 2012, 7 (07) :548-551
[5]   国内微博研究现状综述 [J].
王莹莉 ;
张敏 .
图书馆学研究 , 2012, (12) :2-8+15
[6]  
Content Mining and Network Analysis of Microblog Spam[J] . Yang,Shen,Shuchen,Li,Xiaoxiao,Ye,Fangping,He.Journal of Convergence Information Technology . 2010 (1)
[7]   Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[8]   Measuring regularity by means of a corrected conditional entropy in sympathetic outflow [J].
Porta, A ;
Baselli, G ;
Liberati, D ;
Montano, N ;
Cogliati, C ;
Gnecchi-Ruscone, T ;
Malliani, A ;
Cerutti, S .
BIOLOGICAL CYBERNETICS, 1998, 78 (01) :71-78
[9]  
Detecting covert timing channels:an entropy-based approach .2 Steven Gianvecchio,Wang Haining. Proceedings of the 14th ACM conference on Computer and communications security . 2007