Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques
العناوين الأخرى
تصميم نظام للتعرف على الاصوات قوي في حالة وجود ضوضاء يعتمد على وسائط سمعية وبصرية للصوت مع تقنيات مختلفة للتعلم العميق
المؤلفون المشاركون
al-Maghribi, Islam Id Ali Muhammad
Judi, Amr Muhammad Rifat
Faruq, Hisham Muhammad
المصدر
The Egyptian Journal of Language Engineering
العدد
المجلد 7، العدد 1 (30 إبريل/نيسان 2020)، ص ص. 27-42، 16ص.
الناشر
تاريخ النشر
2020-04-30
دولة النشر
مصر
عدد الصفحات
16
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
- التحليل متعدد المتغيرات
- الأعلاف
- التعرف على الأنماط
- التحليل عبر المركبات الرئيسية
- نماذج ماركوف المخفية
- تحويل جيب التمام المتقطع
الملخص EN
This paper extends an earlier work on designing a speech recognition system based on Hidden Markov Model (HMM) classification technique of using visual modality in addition to audio modality[1].
Improved off traditional HMM-based Automatic Speech Recognition (ASR) accuracy is achieved by implementing a technique using either RNN-based or CNN-based approach.
This research is intending to deliver two contributions: The first contribution is the methodology of choosing the visual features by comparing different visual features extraction methods like Discrete Cosine Transform (DCT), blocked DCT, and Histograms of Oriented Gradients with Local Binary Patterns (HOG+LBP), and applying different dimension reduction techniques like Principal Component Analysis (PCA), auto-encoder, Linear Discriminant Analysis (LDA), t-distributed Stochastic Neighbor Embedding (t-SNE) to find the most effective features vector size.
Then the obtained visual features are early integrated with the audio features obtained by using Mel Frequency Cepstral Coefficients (MFCCs) and feed the combined audio-visual feature vector to the classification process.
The second contribution of this research is the methodology of developing the classification process using deep learning by comparing different Deep Neural Network (DNN) architectures like Bidirectional Long-Short Term Memory (BiLSTM) and Convolution Neural Network (CNN) with the traditional HMM.
The proposed model is evaluated on two multi-speakers AV-ASR datasets named AVletters and GRID with different SNR.
The model performs speaker-independent experiments in AVlettter dataset and speaker-dependent in GRID dataset.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
al-Maghribi, Islam Id Ali Muhammad& Judi, Amr Muhammad Rifat& Faruq, Hisham Muhammad. 2020. Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques. The Egyptian Journal of Language Engineering،Vol. 7, no. 1, pp.27-42.
https://search.emarefa.net/detail/BIM-1012038
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
al-Maghribi, Islam Id Ali Muhammad…[et al.]. Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques. The Egyptian Journal of Language Engineering Vol. 7, no. 1 (Apr. 2020), pp.27-42.
https://search.emarefa.net/detail/BIM-1012038
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
al-Maghribi, Islam Id Ali Muhammad& Judi, Amr Muhammad Rifat& Faruq, Hisham Muhammad. Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques. The Egyptian Journal of Language Engineering. 2020. Vol. 7, no. 1, pp.27-42.
https://search.emarefa.net/detail/BIM-1012038
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
-
رقم السجل
BIM-1012038
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر