深度学习跨模态图文检索研究综述

被引：22

作者：

刘颖 ^{[1
,2
,3
]}

郭莹莹 ^{[1
]}

房杰 ^{[1
,2
,3
]}

范九伦 ^{[1
,3
]}

郝羽 ^{[1
,3
]}

刘继明 ^{[4
]}

机构：

[1] 西安邮电大学图像与信息处理研究所

[2] 陕西省无线通信与信息处理技术国际合作研究中心

[3] 西安邮电大学电子信息现场勘验应用技术公安部重点实验室

[4] 西安邮电大学通信与信息工程学院

来源：

计算机科学与探索 | 2022年 / 03期

关键词：

跨模态检索; 深度学习; 特征学习; 图文匹配; 实值表示; 二进制表示;

D O I：

暂无

中图分类号：

TP391.41 []; TP18 [人工智能理论]; TP391.3 [检索机];

学科分类号：

080203 ; 081104 ; 0812 ; 0835 ; 1405 ; 081203 ;

摘要：

随着深度神经网络的兴起，多模态学习受到广泛关注。跨模态检索是多模态学习的重要分支，其目的在于挖掘不同模态样本之间的关系，即通过一种模态样本来检索具有近似语义的另一种模态样本。近年来，跨模态检索逐渐成为国内外学术界研究的前沿和热点，是信息检索领域未来发展的重要方向。首先，聚焦于深度学习跨模态图文检索研究的最新进展，对基于实值表示学习和基于二进制表示学习方法的发展动态进行了详细介绍，其中，基于实值表示的方法用于提升跨模态语义相关性，进而提高跨模态检索准确度，基于二进制表示学习的方法用于提升跨模态图文检索效率，减小存储空间；其次，总结了跨模态检索领域常用的公开数据集，对比了不同算法在不同数据集上的性能表现；此外，总结并分析了跨模态图文检索技术在公安、传媒及医学等领域的具体应用情况；最后，结合现有技术探讨了该领域的发展趋势及未来研究方向。

引用

页码：489 / 511

页数：23

共 49 条

[21]

Recent advances in convolutional neural networks[J] . Jiuxiang Gu,Zhenhua Wang,Jason Kuen,Lianyang Ma,Amir Shahroudy,Bing Shuai,Ting Liu,Xingxing Wang,Gang Wang,Jianfei Cai,Tsuhan Chen.Pattern Recognition . 2018

[22]

Joint graph regularization based semantic analysis for cross-media retrieval: a systematic review[J] . Ayyavaraiah Monelli,Bondu Venkateswarlu Dr.International Journal of Engineering ＆ Technology . 2018 (2.7)

[23]

Deep Multimodal Learning: A Survey on Recent Advances and Trends[J] . Ramachandram Dhanesh,Taylor Graham W..IEEE Signal Processing Magazine . 2017 (6)

[24]

A New Approach to Cross-Modal Multimedia Retrieval. Rasiwasia N,Costa Pereira J,Coviello E. et al. ACM, MM’’10 . 2010

[25]

Cross media feature retrieval and optimization:a contemporary review of research scope, challenges and objectives. AYYAVARAIAH M,VENKATESWARLU B. Proceedings of the 3rd International Conference on Computational Vision and Bio Inspired Computing . 2019

[26] ImageNet Classification with Deep Convolutional Neural Networks [J].

Krizhevsky, Alex ;

Sutskever, Ilya ;

Hinton, Geoffrey E. .

COMMUNICATIONS OF THE ACM, 2017, 60 (06) :84-90

[27] Region-Based Convolutional Networks for Accurate Object Detection and Segmentation [J].

Girshick, Ross ;

Donahue, Jeff ;

Darrell, Trevor ;

Malik, Jitendra .

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2016, 38 (01) :142-158

[28]

TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems[J] . Martín Abadi,Ashish Agarwal,Paul Barham,Eugene Brevdo,Zhifeng Chen,Craig Citro,Gregory S. Corrado,Andy Davis,Jeffrey Dean,Matthieu Devin,Sanjay Ghemawat,Ian J. Goodfellow,Andrew Harp,Geoffrey Irving,Michael Isard,Yangqing Jia,Rafal Józefowicz,Lukasz Kaiser,Manjunath Kudlur,Josh Levenberg,Dan Mané,Rajat Monga,Sherry Moore,Derek Gordon Murray,Chris Olah,Mike Schuster,Jonathon Shlens,Benoit Steiner,Ilya Sutskever,Kun

[29] Cross-Modal Retrieval via Deep and Bidirectional Representation Learning [J].

He, Yonghao ;

Xiang, Shiming ;

Kang, Cuicui ;

Wang, Jian ;

Pan, Chunhong .

IEEE TRANSACTIONS ON MULTIMEDIA, 2016, 18 (07) :1363-1377

[30]

Cross-Modal Retrieval With CNN Visual Features: A New Baseline[J] . Wei Yunchao,Zhao Yao,Lu Canyi,Wei Shikui,Liu Luoqi,Zhu Zhenfeng,Yan Shuicheng.IEEE Transactions on Cybernetics . 2016 (2)

← 1 2 3 4 5 →