MULTI-STAGE TRAINING FOR CROSS-DOMAIN FULL-BAND AUDIO PACKET LOSS CONCEALMENT

被引：0

作者：

Li, Nan ^{[1
]}

Yu, Guochen ^{[1
]}

Zhang, Chen ^{[1
]}

Zhou, Chao ^{[1
]}

Huang, Qi ^{[1
]}

Yu, Bing ^{[1
]}

机构：

[1] Kuaishou Technol, Beijing, Peoples R China

来源：

2024 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING WORKSHOPS, ICASSPW 2024 | 2024年

关键词：

packet loss concealment; multi-stage training; cross-domain;

D O I：

10.1109/ICASSPW62465.2024.10626444

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

This paper introduces a multi-stage full-band packet loss concealment (PLC) method that incorporates both time-domain and frequency-domain learning. Specifically, the time-domain model is elaborately designed to generate the missing packets, while the frequency-domain model aims to remove discontinuity and noise. The proposed system achieved the 1st place ranking in the ICASSP 2024 PLC Challenge, demonstrating superior performance with a mere 20ms algorithm latency.

引用

页码：35 / 36

页数：2

共 24 条

[1] Multi-Stage Packet Loss Concealment Using ADMM-GLA Phase Reconstruction
Patadiya, Chirag Nileshbhai
Gangan, Siddhesh Chandrashekhar
Shah, Bhavin
Gundur, Siva Prasad
10TH INTERNATIONAL CONFERENCE ON ELECTRONICS, COMPUTING AND COMMUNICATION TECHNOLOGIES, CONECCT 2024, 2024,
[2] A TIME-FREQUENCY BAND-SPLIT NEURAL NETWORK FOR REAL-TIME FULL-BAND PACKET LOSS CONCEALMENT
Dai, Lingling
Ke, Yuxuan
Zhang, Huiyong
Hao, Fengyuan
Luo, Xiaoxue
Li, Xiaodong
Zheng, Chengshi
2024 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING WORKSHOPS, ICASSPW 2024, 2024, : 77 - 78
[3] Audio packet loss concealment in a combined MDCT-MDST domain
Ofir, Hadas
Malah, David
Cohen, Israel
IEEE SIGNAL PROCESSING LETTERS, 2007, 14 (12) : 1032 - 1035
[4] ENHANCED TIME DOMAIN PACKET LOSS CONCEALMENT IN SWITCHED SPEECH/AUDIO CODEC
Lecomte, Jeremie
Tomasek, Adrian
Markovic, Goran
Schnabel, Michael
Tsutsumi, Kimitaka
Kikuiri, Kei
2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, : 5922 - 5926
[5] Streaming Audio Packet Loss Concealment Based on Sinusoidal Frequency Estimation in MDCT Domain
Zhu, Meng-Yao
Zhang, Ming
Yu, Xiao-Qing
Wan, Wang-Gen
IEEE TRANSACTIONS ON CONSUMER ELECTRONICS, 2010, 56 (02) : 811 - 819
[6] DELAY-LESS FREQUENCY DOMAIN PACKET-LOSS CONCEALMENT FOR TONAL AUDIO SIGNALS
Sperschneider, Ralph
Sukowski, Janine
Markovic, Goran
2015 IEEE GLOBAL CONFERENCE ON SIGNAL AND INFORMATION PROCESSING (GLOBALSIP), 2015, : 766 - 770
[7] End-to-End Multi-Loss Training for Low Delay Packet Loss Concealment
Li, Nan
Zheng, Xiguang
Zhang, Chen
Guo, Liang
Yu, Bing
INTERSPEECH 2022, 2022, : 585 - 589
[8] A clustering multi-stage training transfer learning framework for cross simulation domain and experimental domain fault diagnosis
Yu, Shubo
Liu, Zhansheng
Zhao, Chen
Lv, Dongfang
MEASUREMENT SCIENCE AND TECHNOLOGY, 2024, 35 (06)
[9] MULTI-CHANNEL NARROW-BAND DEEP SPEECH SEPARATION WITH FULL-BAND PERMUTATION INVARIANT TRAINING
Quan, Changsheng
Li, Xiaofei
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2022, : 541 - 545
[10] A Cross-Domain Exploration of Audio and Textual Data for Multi-Modal Emotion Detection
Haque, Mohd Ariful
George, Roy
Rifat, Rakib Hossain
Uddin, Md Shihab
Kamal, Marufa
Gupta, Kishor Datta
17TH ACM INTERNATIONAL CONFERENCE ON PERVASIVE TECHNOLOGIES RELATED TO ASSISTIVE ENVIRONMENTS, PETRA 2024, 2024, : 375 - 381

← 1 2 3 →