Comparison between features extraction techniques for impairments Arabic speech
Other Title(s)
مقارنة بين تقنيات استخلاص الميزات عند ضعف الكلام العربي
Joint Authors
Muhammad, Yusra Faysal
Sharif, Sura Ramzi
Source
al-Rafidain Engineering Journal
Issue
Vol. 27, Issue 2 (30 Sep. 2022), pp.190-197, 8 p.
Publisher
University of Mosul College of Engineering
Publication Date
2022-09-30
Country of Publication
Iraq
No. of Pages
8
Main Subjects
Information Technology and Computer Science
Topics
Abstract AR
تعد عملية التعرف على الكلام التلقائي واحدة من المهام الصعبة، مع وجود ضوضاء مصاحبة في أغلب الأحيان للكلام وعدم القدرة على التنبؤ في الكلام المنطوق يؤدي إلى مشاكل حادة في عملية تحويل الكلمات المنطوقة إلى نص.
استخراج ميزات مقاومة للضوضاء لتعويض هذا التراجع في الأداء هو الأخر تحديا حتى السنوات القليلة الماضية.
هذا البحث يحقق في تأثير الميزات المختلفة المستخرجة من موجات الكلام.
ثم اختبرت هذه الميزات مع نوعين من تقنيات التعلم العميق هما الذاكرة طويلة المدى LSTM النموذج التقليدية ونموذج هجين يتضمن الشبكة العصبية التلافيفية ذات الذاكرة طويلة LSTM-CNN.
أظهرت نتائج هذا البحث أن ميزات MFCC أكثر مقاومة الضوضاء، حيث حققت أعلى دقة مع نموذج LSTM بنسبة 93٪ ومع الموديل الهجين LSTM-CNN كانت الدقة 91٪.
Abstract EN
Automatic speech recognition (ASR) is a tough task, with the existence of related noise and high unpredictability in a speech presenting the most severe problems.
especially with regard to the noise of speech impairments, whether due to disability or mispronunciation in children.
extraction of noise-resistant features to compensate for speech degradation due to noise impact has remained a difficult challenge in the last few years.
this research investigated the impact of different wavelet generations for extracting speech features, then test the produced dataset from each technique with two types of deep learning techniques: deep long short-term memory (LSTM) and hyper deep learning model convolutional neural network with long short-term memory (CNN-LSTM).
the result shows that the deep long short-term memory of MFCC has reached 93% as an accuracy while in the hyper deep learning model of CNN-LSTM the accuracy of MFCC was 91%, as the highest recorded accuracy which proves that MFCC would be the best feature extraction technique for our developed dataset.
American Psychological Association (APA)
Sharif, Sura Ramzi& Muhammad, Yusra Faysal. 2022. Comparison between features extraction techniques for impairments Arabic speech. al-Rafidain Engineering Journal،Vol. 27, no. 2, pp.190-197.
https://search.emarefa.net/detail/BIM-1560152
Modern Language Association (MLA)
Sharif, Sura Ramzi& Muhammad, Yusra Faysal. Comparison between features extraction techniques for impairments Arabic speech. al-Rafidain Engineering Journal Vol. 27, no. 2 (Sep. 2022), pp.190-197.
https://search.emarefa.net/detail/BIM-1560152
American Medical Association (AMA)
Sharif, Sura Ramzi& Muhammad, Yusra Faysal. Comparison between features extraction techniques for impairments Arabic speech. al-Rafidain Engineering Journal. 2022. Vol. 27, no. 2, pp.190-197.
https://search.emarefa.net/detail/BIM-1560152
Data Type
Journal Articles
Language
English
Notes
Includes bibliographical references: p. 195-196
Record ID
BIM-1560152