A STUDY ON COMBINING NON-PARALLEL AND PARALLEL METHODOLOGIES FOR MANDARIN-ENGLISH CROSS-LINGUAL VOICE CONVERSION

被引：0

作者：

You, Chang Huai ^{[1
]}

Dong, Minghui ^{[1
]}

机构：

[1] ASTAR, Inst Infocomm Res, Singapore, Singapore

来源：

2024 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2024) | 2024年

关键词：

non-parallel voice conversion; parallel voice conversion; generative adversarial network; text-to-speech; phonetic posterior-grams; NEURAL-NETWORKS;

D O I：

10.1109/ICASSP48485.2024.10446264

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

In this paper, we propose a cross-lingual voice conversion (VC) scheme leveraging non-parallel and parallel methodologies. The goal of cross-lingual VC is to transform the voice of one speaker from a language dataset into the voice of another speaker from a different language dataset. First, two non-parallel methods are separately investigated, they are CycleGAN-VC2 and phonetic posteriorGrams (PPG) VC. Second, two different parallel VC systems are developed to enhance the quality of the converted speech spectrogram, where the output speech from the non-parallel VC is used to form the parallel pair with the corresponding original speech. Focusing on Mandarin-English bilingual databases, the proposed VC scheme improves speech naturalness and speaker similarity as compared to the baseline non-parallel methods.

引用

页码：10491 / 10495

页数：5

共 50 条

[1] SINGING VOICE CONVERSION WITH NON-PARALLEL DATA
Chen, Xin
Chu, Wei
Guo, Jinxi
Xu, Ning
2019 2ND IEEE CONFERENCE ON MULTIMEDIA INFORMATION PROCESSING AND RETRIEVAL (MIPR 2019), 2019, : 292 - 296
[2] Non-Parallel Voice Conversion for ASR Augmentation
Wang, Gary
Rosenberg, Andrew
Ramabhadran, Bhuvana
Biadsy, Fadi
Huang, Yinghui
Emond, Jesse
Mengibar, Pedro Moreno
INTERSPEECH 2022, 2022, : 3408 - 3412
[3] Parallel vs. Non-parallel Voice Conversion for Esophageal Speech
Serrano, Luis
Raman, Sneha
Tavarez, David
Navas, Eva
Hernaez, Inma
INTERSPEECH 2019, 2019, : 4549 - 4553
[4] NOVEL METRIC LEARNING FOR NON-PARALLEL VOICE CONVERSION
Shah, Nirmesh J.
Patil, Hemant A.
2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2019, : 3722 - 3726
[5] CVC: Contrastive Learning for Non-parallel Voice Conversion
Li, Tingle
Liu, Yichen
Hu, Chenxu
Zhao, Hang
INTERSPEECH 2021, 2021, : 1324 - 1328
[6] Frame Labeling and Mapping for Non-parallel Voice Conversion
Dong, Minghui
Yang, Chenyu
Ehnes, Jochen Walter
Lu, Yanfeng
Ming, Huaiping
Huang, Dongyan
2017 IEEE 2ND INTERNATIONAL CONFERENCE ON SIGNAL AND IMAGE PROCESSING (ICSIP), 2017, : 361 - 365
[7] Non-parallel Voice Conversion with Generative Attentional Networks
Chiu, Tse Wei
Guo, You Sheng
Chang, Pao-Chi
2021 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 2021, : 141 - 145
[8] Non-Parallel Voice Conversion with Cyclic Variational Autoencoder
Tobing, Patrick Lumban
Wu, Yi-Chiao
Hayashi, Tomoki
Kobayashi, Kazuhiro
Toda, Tomoki
INTERSPEECH 2019, 2019, : 674 - 678
[9] Transferring Source Style in Non-Parallel Voice Conversion
Liu, Songxiang
Cao, Yuewen
Kang, Shiyin
Hu, Na
Liu, Xunying
Su, Dan
Yu, Dong
Meng, Helen
INTERSPEECH 2020, 2020, : 4721 - 4725
[10] Non-parallel Voice Conversion using Generative Adversarial Networks
Hasunuma, Yuta
Hirayama, Chiaki
Kobayashi, Masayuki
Nagao, Tomoharu
2018 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS (SMC), 2018, : 1635 - 1640

← 1 2 3 4 5 →