Image as a Language: Revisiting Scene Text Recognition via Balanced, Unified and Synchronized Vision-Language Reasoning Network

被引：0

作者：

Wei, Jiajun ^{[1
]}

Zhan, Hongjian ^{[1
]}

Lu, Yue ^{[1
]}

Tu, Xiao ^{[1
]}

Yin, Bing ^{[2
]}

Liu, Cong ^{[2
]}

Pal, Umapada ^{[3
]}

机构：

[1] East China Normal Univ, Shanghai Key Lab Multidimens Informat Proc, Shanghai, Peoples R China

[2] iFLYTEK, iFLYTEK Res, Hefei, Peoples R China

[3] Indian Stat Inst, CVPR Unit, Kolkata, India

来源：

THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 38 NO 6 | 2024年

基金：

中国国家自然科学基金;

关键词：

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Scene text recognition is inherently a vision-language task. However, previous works have predominantly focused either on extracting more robust visual features or designing better language modeling. How to effectively and jointly model vision and language to mitigate heavy reliance on a single modality remains a problem. In this paper, aiming to enhance vision-language reasoning in scene text recognition, we present a balanced, unified and synchronized vision-language reasoning network (BUSNet). Firstly, revisiting the image as a language by balanced concatenation along length dimension alleviates the issue of over-reliance on vision or language. Secondly, BUSNet learns an ensemble of unified external and internal vision-language model with shared weight by masked modality modeling (MMM). Thirdly, a novel vision-language reasoning module (VLRM) with synchronized vision-language decoding capacity is proposed. Additionally, BUSNet achieves improved performance through iterative reasoning, which utilizes the vision-language prediction as a new language input. Extensive experiments indicate that BUSNet achieves state-of-the-art performance on several mainstream benchmark datasets and more challenge datasets for both synthetic and real training data compared to recent outstanding methods. Code and dataset will be available at https://github.com/jjwei66/BUSNet.

引用

页码：5885 / 5893

页数：9

共 41 条

[1] Revisiting Classifier: Transferring Vision-Language Models for Video Recognition
Wu, Wenhao
Sun, Zhun
Ouyang, Wanli
THIRTY-SEVENTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 37 NO 3, 2023, : 2847 - 2855
[2] Vision-Language Pre-Training for Boosting Scene Text Detectors
Song, Sibo
Wan, Jianqiang
Yang, Zhibo
Tang, Jun
Cheng, Wenqing
Bai, Xiang
Yao, Cong
2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2022), 2022, : 15660 - 15670
[3] Vision-Language Matching for Text-to-Image Synthesis via Generative Adversarial Networks
Cheng, Qingrong
Wen, Keyu
Gu, Xiaodong
IEEE TRANSACTIONS ON MULTIMEDIA, 2023, 25 : 7062 - 7075
[4] Unified Vision-Language Pre-Training for Image Captioning and VQA
Zhou, Luowei
Palangi, Hamid
Zhang, Lei
Hu, Houdong
Corso, Jason J.
Gao, Jianfeng
THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, THE THIRTY-SECOND INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE AND THE TENTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE, 2020, 34 : 13041 - 13049
[5] Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting
Xue, Chuhui
Zhang, Wenqing
Hao, Yu
Lu, Shijian
Torr, Philip H. S.
Bai, Song
COMPUTER VISION - ECCV 2022, PT XXVIII, 2022, 13688 : 284 - 302
[6] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Li, Junnan
Li, Dongxu
Xiong, Caiming
Hoi, Steven
INTERNATIONAL CONFERENCE ON MACHINE LEARNING, VOL 162, 2022,
[7] CLIP4STR: A Simple Baseline for Scene Text Recognition With Pre-Trained Vision-Language Model
Zhao, Shuai
Quan, Ruijie
Zhu, Linchao
Yang, Yi
IEEE TRANSACTIONS ON IMAGE PROCESSING, 2024, 33 : 6893 - 6904
[8] CLIP-Llama: A New Approach for Scene Text Recognition with a Pre-Trained Vision-Language Model and a Pre-Trained Language Model
Zhao, Xiaoqing
Xu, Miaomiao
Silamu, Wushour
Li, Yanbing
SENSORS, 2024, 24 (22)
[9] Cross-modality interaction reasoning for enhancing vision-language pre-training in image-text retrieval
Yao, Tao
Peng, Shouyong
Wang, Lili
Li, Ying
Sun, Yujuan
APPLIED INTELLIGENCE, 2024, 54 (23) : 12230 - 12245
[10] Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships
Lou, Chao
Han, Wenjuan
Lin, Yuhuan
Zheng, Zilong
2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2022), 2022, : 15586 - 15595

← 1 2 3 4 5 →