Comparing Computation in Gaussian mixture and Neural Network based Large-Vocabulary Speech Recognition

被引：0

作者：

Gupta, Vishwa ^{[1
]}

Boulianne, Gilles ^{[1
]}

机构：

[1] CRIM, Montreal, PQ, Canada

来源：

14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5 | 2013年

关键词：

Speech recognition; ETAPE evaluation; large vocabulary recognition; real-time computing;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

In this paper we look at real-time computing issues in large vocabulary speech recognition. We use the French broadcast audio transcription task from ETAPE 2011 for this evaluation. We compare word error rate (WER) versus overall computing time for hidden Markov models with Gaussian mixtures (GMM-HMM) and deep neural networks (DNN-HMM). We show that for a similar computing during recognition, the DNN-HIVIM combination is superior to the GMM-HMM. For a realtime computing scenario, the error rate for the ETAPE dev set is 23.5% for DNN-HMM versus 27.9% for the GMM-HIVIM: a significant difference in accuracy for comparable computing. Rescoring lattices (generated by DNN-HMM acoustic model) with a quadgram language model (LM), and then with a neural net LM reduces the WER to 22.0% while still providing realtime computing.

引用

页码：617 / 621

页数：5

共 50 条

[1] Network optimizations for large-vocabulary speech recognition
Mohri, M
Riley, M
SPEECH COMMUNICATION, 1999, 28 (01) : 1 - 12
[2] SUBWORD-BASED LARGE-VOCABULARY SPEECH RECOGNITION
LEE, CH
GAUVAIN, JL
PIERACCINI, R
RABINER, LR
AT&T TECHNICAL JOURNAL, 1993, 72 (05): : 25 - 36
[3] Large-vocabulary speech recognition algorithms
Padmanabhan, M
Picheny, M
COMPUTER, 2002, 35 (04) : 42 - +
[4] SPEECH RECOGNITION FOR LARGE-VOCABULARY SYSTEMS
JACOB, B
ANDREOBRECHT, R
JOURNAL DE PHYSIQUE IV, 1994, 4 (C5): : 489 - 492
[5] Large-Vocabulary Continuous Speech Recognition Systems
Saon, George
Chien, Jen-Tzung
IEEE SIGNAL PROCESSING MAGAZINE, 2012, 29 (06) : 18 - 33
[6] ARTICULATORY TRAJECTORIES FOR LARGE-VOCABULARY SPEECH RECOGNITION
Mitra, Vikramjit
Wang, Wen
Stolcke, Andreas
Nam, Hosung
Richey, Colleen
Yuan, Jiahong
Liberman, Mark
2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013, : 7145 - 7149
[7] Recognition time reduction algorithm for large-vocabulary speech recognition
Koo, J.M.
Un, C.K.
Speech Communication, 1992, 10 (01) : 45 - 50
[8] Large-vocabulary recognition
Dugast, C
PHILIPS JOURNAL OF RESEARCH, 1995, 49 (04) : 353 - 366
[9] EVALUATING THE ACCURACY OF A LARGE-VOCABULARY SPEECH RECOGNITION SYSTEM
BROWN, NR
VOSBURGH, AM
PROCEEDINGS OF THE HUMAN FACTORS SOCIETY 33RD ANNUAL MEETING, VOL 1: PERSPECTIVES, 1989, : 296 - 300
[10] A RECOGNITION TIME REDUCTION ALGORITHM FOR LARGE-VOCABULARY SPEECH RECOGNITION
KOO, JM
UN, CK
SPEECH COMMUNICATION, 1992, 11 (01) : 45 - 50

← 1 2 3 4 5 →