基于深度学习的鲁棒性视觉跟踪方法

被引:29
作者
高君宇
杨小汕
张天柱
徐常胜
机构
[1] 中国科学院自动化研究所模式识别国家重点实验室
基金
国家自然科学基金重点项目;
关键词
深度学习; 卷积神经网络; 视觉跟踪; 鲁棒性; L1跟踪系统; 计算机视觉;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
传统的视觉跟踪方法(如L1等)大多直接使用视频序列各帧内的像素级特征进行建模,而没有考虑到各图像块内部的深层视觉特征信息.在现实世界的固定摄像头视频监控场景中,通常可以找到一块区域,该区域中目标物体具有清晰、易于分辨的表观.因此,文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用以构造训练样本,并构建了一个两路对称且权值共享的深度卷积神经网络.该深度网络使得参考区域外目标的输出特征尽可能与参考区域内目标的输出特征相似,以获得参考区域内目标良好表征的特性.经过训练后的深度卷积神经网络模型具有增强目标可识别性的特点,可以应用在使用浅层特征的跟踪系统(如L1等)中以提高其鲁棒性.文中在L1跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示,从而获得了跟踪过程中应对遮挡、光照变化等问题的鲁棒性.文中在25个行人视频中与当前国际上流行的9种方法对比,结果显示文中提出的方法的平均重叠率比次优的方法高0.11,平均中心位置误差比次优的方法低1.0.
引用
收藏
页码:1419 / 1434
页数:16
相关论文
共 13 条
[1]   基于自重构粒子滤波算法的目标跟踪 [J].
王宇霞 ;
赵清杰 ;
蔡艺明 ;
王博 .
计算机学报, 2016, 39 (07) :1294-1306
[2]   智能视频监控技术综述 [J].
黄凯奇 ;
陈晓棠 ;
康运锋 ;
谭铁牛 .
计算机学报, 2015, 38 (06) :1093-1118
[3]   基于中心宏块的视频目标跟踪算法 [J].
肖国强 ;
康勤 ;
江健民 ;
张贝贝 .
计算机学报, 2011, 34 (09) :1712-1718
[4]   基于粒子Mean Shift迁移的红外人体目标跟踪算法 [J].
云廷进 ;
郭永彩 ;
高潮 .
计算机学报, 2009, 32 (06) :1222-1228
[5]   基于Level Set方法的人脸轮廓提取与跟踪 [J].
黄福珍 ;
苏剑波 .
计算机学报, 2003, (04) :491-496
[6]   Self-taught learning of a deep invariant representation for visual tracking via temporal slowness principle [J].
Kuen, Jason ;
Lim, Kian Ming ;
Lee, Chin Poo .
PATTERN RECOGNITION, 2015, 48 (10) :2964-2982
[7]  
CNNTracker: Online discriminative object tracking via deep convolutional neural network[J] . Yan Chen,Xiangnan Yang,Bineng Zhong,Shengnan Pan,Duansheng Chen,Huizhen Zhang.Applied Soft Computing . 2015
[8]   Robust Visual Tracking Via Consistent Low-Rank Sparse Learning [J].
Zhang, Tianzhu ;
Liu, Si ;
Ahuja, Narendra ;
Yang, Ming-Hsuan ;
Ghanem, Bernard .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2015, 111 (02) :171-190
[9]   Robust Visual Tracking via Structured Multi-Task Sparse Learning [J].
Zhang, Tianzhu ;
Ghanem, Bernard ;
Liu, Si ;
Ahuja, Narendra .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2013, 101 (02) :367-383
[10]   The Pascal Visual Object Classes (VOC) Challenge [J].
Everingham, Mark ;
Van Gool, Luc ;
Williams, Christopher K. I. ;
Winn, John ;
Zisserman, Andrew .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2010, 88 (02) :303-338