图像的文本描述方法研究综述

被引:6
作者
马龙龙
韩先培
孙乐
机构
[1] 中国科学院软件研究所中文信息处理实验室
关键词
图像的文本描述; 生成; 检索; 编码—解码;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP391.41 [];
学科分类号
081203 ; 0835 ; 080203 ;
摘要
随着深度学习技术的兴起,自然语言处理与计算机视觉领域呈现相结合的趋势。作为融合视觉和语言的多模态研究任务,图像的文本描述可应用于基于文本内容的图像检索、网络图像分析等众多场景中,从而受到了研究界和企业界的广泛关注。图像的文本描述方法可归纳为三大类:基于生成的方法、基于检索的方法和基于编码—解码的方法。该文详细介绍了这三类方法各自具有代表性的工作,并进一步分析了各方法的优劣;然后对图像文本描述方法的相关数据集、评测标准和主要开源工具包进行了阐述;最后,分析了图像的文本描述中需要解决的关键技术问题。
引用
收藏
页码:1 / 12
页数:12
相关论文
共 6 条
[1]  
The SUN Attribute Database: Beyond Categories for Deeper Scene Understanding[J] . Genevieve Patterson,Chen Xu,Hang Su,James Hays.International Journal of Computer Vision . 2014 (1-2)
[2]  
Adding Chinese Captions to Images .2 Li X,Lan W,Dong J,Liu H. International Conference on Multimedia Retrieval . 2016
[3]  
What is the role of recurrent neural networks (RNNs) in an image caption generator .2 Tanti M,Gatt A,Camilleri K. . 2017
[4]  
Generating image descriptions using semantic similarities in the output space .2 Verma Y,Gupta A,Mannem P,et al. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,CVPR Workshops 2013 . 2013
[5]  
AI challenger:A large-scale dataset for going deeper in image understanding .2 Wu J,Zheng H,et al. . 2017
[6]  
Deep captioning with multimodal recurrent neural networks (m-rnn) .2 Mao J,Xu W,Yang Y,et al. . 2014