A simple time alignment algorithm for spoken Arabic digit recognition

العناوين الأخرى

خوارزمي مبسط للاصطفاف الزمني للتعرف الآلي علي الأرقام العربية المنطوقة

المؤلف

al-Utaybi, Yusuf Ajami

المصدر

Journal of King Abdulaziz University : Engineering Sciences

العدد

المجلد 20، العدد 1 (31 يناير/كانون الثاني 2009)، ص ص. 29-43، 15ص.

الناشر

جامعة الملك عبد العزيز مركز النشر العلمي

تاريخ النشر

2009-01-31

دولة النشر

السعودية

عدد الصفحات

15

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

المشكلة الملازمة لمقارنة سلسلة طيفية من الكلام يأتي من حقيقة اختلاف طول الكلمات المنطوقة و مواقع و طول الكلمات لنفس الكلمة و المتكلم و صعوبة توافقها إضافة إلى اختلافها الفونتكي.

يعرض في هذا البحث خوارزمي مبسط للاصطفاف الزمني للتعرف الآلي على الأرقام العربية المنطوقة.

يقصد بكلمة مبسط هنا أي أنه يحتاج إلى زمن أقل للمعالج لإنجاز الحسابات المطلوبة و كذلك فيه شيء من السهولة للفهم و التصميم و التطبيق.

مع أن الحاسبات السريعة متوفرة الآن إلا أن الطرق المعتادة مثل خوارزم الالتفاف الزمني المتغير.

يحتاج نموذج ماركوف الخفي إلى جهد كبير لمعالج الكمبيوتر و هذا صعب جدا و بخاصة في حالة التطبيقات الخاصة بالزمن الحقيقي.

هذا الخوارزمي أعطى دقة عالية مع استخدام عدد محدود من الإطارات الزمنية المأخوذة من الكلمة المنطوقة لاستخدامها في مرحلة التدريب أو الاختبار.

يعتمد النظام على الشبكات العصبية الاصطناعية و ذلك للاختبار و التعرف الآلي على الأرقام العربية المنطوقة و ذلك لعمل فحص و اختبار لهذا الخوارزمي المبسط للاصطفاف الزمني.

يتعامل النظام مع الكلمات المنطوقة في معزل عن بعضها و أخذ كل كلمة بمجملها كاملة كوحدة كاملة للتعرف عليها آليا و ذلك لمجموعة محددة و معروفة مسبقا من المتكلمين.

عملية معالجة الكلمة المنطوقة تمر بعدد من العمليات الأساسية في أي نظام مشابه مثل عمليات استخلاص الصفات المميزة للكلام و عمل إطارات من الإشارة والاصطفاف الزمني و غيرها من العمليات الضرورية لإزالة أية بيانات في الإشارة غير ضرورية.

الصفات المميزة للكلام اعتمدت على مميزات عوامل (MFCC).

بلغت دقة التعرف لهذا النظام باستخدام هذا الخوارزمي للاصطفاف 48'99 وذلك عند استخدام سبعة إطارات فقط من الرقم المنطوق.

الملخص EN

The problem associated with spectral sequence comparison for speech comes from the fact that different acoustic renditions, or tokens, of the same speech utterance are seldom realized at the same speed across the entire utterance.

In this paper a simple and effective time alignment was introduced for spoken Arabic digit recognition systems.

We meant with simplicity here not only in its need for low computational power, but also simplicity to understand, to implement, and to explain to others.

While high power computers are available today, time alignment algorithms, such as dynamic time warping algorithm and hidden Markov models need relatively high CPU time, which should be reserved for other complicated tasks.

This algorithm has a high accuracy rate considering the very limited number of frames taken from input utterances to be used in training or testing.

An artificial neural network based speech recognition system was designed and tested with automatic Arabic digit recognition to test this time alignment algorithm.

The system is an isolated whole word speech recognizer and it was implemented in a multi-speaker mode (i.e., the same set of speakers was used in both the training and testing phases).

During recognition process, digitized speech was cleaned of noise, then the signal was pre-emphasized and it was windowed and blocked by Hamming window, the time alignment algorithm was used to compensate for the differences in the utterance length and misalignments between phonemes.

Frames features were extracted using MFCC coefficients to reduce the amount of the information in the input signal.

Finally, the neural network classified the unknown digit.

This recognition system achieved 99.48 % correct digit recognition while using only seven frames in the time alignment algorithm.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Utaybi, Yusuf Ajami. 2009. A simple time alignment algorithm for spoken Arabic digit recognition. Journal of King Abdulaziz University : Engineering Sciences،Vol. 20, no. 1, pp.29-43.
https://search.emarefa.net/detail/BIM-327503

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Utaybi, Yusuf Ajami. A simple time alignment algorithm for spoken Arabic digit recognition. Journal of King Abdulaziz University : Engineering Sciences Vol. 23, no. 1 (2009), pp.29-43.
https://search.emarefa.net/detail/BIM-327503

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Utaybi, Yusuf Ajami. A simple time alignment algorithm for spoken Arabic digit recognition. Journal of King Abdulaziz University : Engineering Sciences. 2009. Vol. 20, no. 1, pp.29-43.
https://search.emarefa.net/detail/BIM-327503

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 41

رقم السجل

BIM-327503