ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation

被引：0

作者：

Le, Chenyang ^{[1
,4
]}

Qian, Yao ^{[2
]}

Zhou, Long ^{[3
]}

Liu, Shujie ^{[3
]}

Qian, Yanmin ^{[1
]}

Zeng, Michael ^{[2
]}

Huang, Xuedong ^{[2
]}

机构：

[1] Shanghai Jiao Tong Univ, Shanghai, Peoples R China

[2] Microsoft Cloud & AI, Redmond, WA USA

[3] Microsoft Res Asia, Beijing, Peoples R China

[4] Microsoft, Redmond, WA USA

来源：

ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023) | 2023年

关键词：

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Joint speech-language training is challenging due to the large demand for training data and GPU consumption, as well as the modality gap between speech and language. We present ComSL, a speech-language model built atop a composite architecture of public pretrained speech-only and language-only models and optimized data-efficiently for spoken language tasks. Particularly, we propose to incorporate cross-modality learning into transfer learning and conduct them simultaneously for downstream tasks in a multi-task learning manner. Our approach has demonstrated effectiveness in end-to-end speech-to-text translation tasks, achieving a new state-of-the-art average BLEU score of 31.5 on the multilingual speech to English text translation task for 21 languages, as measured on the public CoVoST2 evaluation set.(2)

引用

页数：12

共 50 条

[31] Myanmar Text-to-Speech Synthesis Using End-to-End Model
Qin, Qinglai
Yang, Jian
Li, Peiying
2020 4TH INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND INFORMATION RETRIEVAL, NLPIR 2020, 2020, : 6 - 11
[32] End-to-end Speech-to-Punctuated-Text Recognition
Nozaki, Jumon
Kawahara, Tatsuya
Ishizuka, Kenkichi
Hashimoto, Taiichi
INTERSPEECH 2022, 2022, : 1811 - 1815
[33] End-to-End Mongolian Text-to-Speech System
Li, Jingdong
Zhang, Hui
Liu, Rui
Zhang, Xueliang
Bao, Feilong
2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2018, : 483 - 487
[34] End-to-End Speech Synthesis for Bangla with Text Normalization
Pial, Tanzir Islam
Aunti, Shahreen Salim
Ahmed, Shabbir
Heickal, Hasnain
2018 5TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE/ INTELLIGENCE AND APPLIED INFORMATICS (CSII 2018), 2018, : 66 - 71
[35] Exploring Phoneme-Level Speech Representations for End-to-End Speech Translation
Salesky, Elizabeth
Sperber, Matthias
Black, Alan W.
57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL 2019), 2019, : 1835 - 1841
[36] Speaker voice normalization for end-to-end speech translation
Xue, Zhengshan
Shi, Tingxun
Zhang, Xiaolei
Xiong, Deyi
EXPERT SYSTEMS WITH APPLICATIONS, 2024, 248
[37] Adaptive Feature Selection for End-to-End Speech Translation
Zhang, Biao
Titov, Ivan
Haddow, Barry
Sennrich, Rico
FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, EMNLP 2020, 2020, : 2533 - 2544
[38] MINTZAI: End-to-end Deep Learning for Speech Translation
Etchegoyhen, Thierry
Arzelus, Haritz
Gete, Harritxu
Alvarez, Aitor
Hernaez, Inma
Navas, Eva
Gonzalez-Docasal, Ander
Osacar, Jaime
Benites, Edson
Ellakuria, Igor
Calonge, Eusebi
Martin, Maite
PROCESAMIENTO DEL LENGUAJE NATURAL, 2020, (65): : 97 - 100
[39] Self-Training for End-to-End Speech Translation
Pino, Juan
Xu, Qiantong
Ma, Xutai
Dousti, Mohammad Javad
Tang, Yun
INTERSPEECH 2020, 2020, : 1476 - 1480
[40] AN END-TO-END LANGUAGE-TRACKING SPEECH RECOGNIZER FOR MIXED-LANGUAGE SPEECH
Seki, Hiroshi
Watanabe, Shinji
Hori, Takaaki
Le Roux, Jonathan
Hershey, John R.
2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2018, : 4919 - 4923

← 1 2 3 4 5 →