HMM automatic speech recognition system of Arabic alphadigits

المؤلفون المشاركون

al-Ghamidi, Mansur M.
al-Utaybi, Yusuf Ajami

المصدر

The Arabian Journal for Science and Engineering. Section C, Theme issues

العدد

المجلد 35، العدد 2C(s) (31 ديسمبر/كانون الأول 2010)، ص ص. 137-155، 19ص.

الناشر

جامعة الملك فهد للبترول و المعادن

تاريخ النشر

2010-12-31

دولة النشر

السعودية

عدد الصفحات

19

التخصصات الرئيسية

اللغات والآداب المقارنة
تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

يشكل التعرف على الألفبائية و الأرقام إحدى الصعوبات في مجال التعرف الحاسوبي على الكلام.

فهناك حاجة إلى معالجة التعرف على الألفرقمية (اختصار الألفبائية و الأرقام) المنطوقة في تطبيقات عديدة تكون الأرقام و / أو الألفبائية إحدى مدخلاتها.

إن اللغة العربية لغة سامية تختلف عن كثير من اللغات الأخرى بما فيها الإنجليزية على سبيل المثال.

أحد هذه الاختلافات هو طريقة نطق الأرقام العشرة و جميع حروف الألفبائية.

و لقد تم في هذا البحث تقصي الألفرقمية العربية من حيث التعرف الآلي على أصواتها.

حيث صمم النظام للتعرف على الكلمات المنطوقة بوصفه وحدة واحدة بناء أنموذج ماركوف الخفي.

فكان تصميم أنموذج ماركوف الخفي يعتمد على التعرف الآلي على الفونيم بوصفه وحدة صوتية.

و قد استخدمت الذخيرة الصوتية العربية المعروفة ببنك الأصوات السعودية في حالتي التدريب و الاختبار.

حيث نفذت تسع تجارب مختلفة في هذا البحث باستخدام هذه الذخيرة.

فكانت التجارب الثلاث الأولى باستخدام ثلاث مجموعات مستقلة للأرقام العربية.

أما الرابعة فكانت باستخدام الثلاث مجموعات السابقة (حيث استخدمت مجموعات التدريب الثلاث كمجموعة واحدة واستخدمت مجموعات الاختبار الثلاث أيضا كمجموعة واحدة للاختبار).

و في المجوعات الثلاث التالية فإن مجموعة التدريب كانت نفس مجموعة التجربة الرابعة و لكن استخدمت مجموعات الاختبار الخاصة بالتجارب الثلاث الأولى كمجموعات اختبار، كل مجموعة في تجربة مستقلة.

و كانت التجربة الثامنة على الألفبائية، أما التاسعة و الأخيرة فكانت على الأرقام و الألفبائية مجتمعة. و كانت هناك ثلاث مراحل أساسية لهذا البحث : الأولى، تصميم النظام باستخدام الأرقام العربية، الثانية، العمل على حروف الألفبائية العربية تعرفا و تحليلا و تقويما، الثالثة، دمج الأرقام و الألفبائية مجتمعة.

و حقق النظام نسبة تعرف عامة وصلت إلى 94.13% بالنسبة للأرقام باستخدام ذخيرة ضوضائية و دمج جميع مجموعات التدريب و الاختبار.

أما في حالة التعرف على الألفبائية فإن النظام حقق نسبة 64.06% و هي نسبة عالية نسبيا إذا ما أخذنا في الاعتبار ذخيرة صوتية بها ضوضاء.

و عند دمج الأرقام و الألفبائية فإن نسبة التعرف كانت 76.06% و هي أعلى من نسبة التعرف على الألفبائية و لكنها أقل بكثير بالنسبة للتعرف على الأرقام.

و في نهاية هذه الورقة عرض لبعض المقترحات مستقبلية، إضافة إلى توصيات للعاملين على الذخيرة اللغوية في مدينة الملك عبد العزيز للعلوم و التقنية.

الملخص EN

Automatic recognition of spoken alphabets and digits is one of the difficult tasks in the field of computer speech recognition.

Spoken alpha digits (i.e., alphabets and digits) recognition process is needed in many applications that take spoken digits and / or alphabets as inputs.

Arabic language is a Semitic language that differs from other languages such as English.

One of these differences is how to pronounce the ten digits and all alphabets.

In this research, spoken Arabic digits are investigated from the speech recognition point of view.

The system was designed to recognize an isolated whole-word speech based on Hidden Morkov Models (HMM).

The designed HMM model was based on phoneme recognition.

In the training and testing phase of the system, the Arabic speech corpus known as Saudi Accented Arabic Voice Bank (SAAVB) was used.

Nine different experiments were performed on SAAVB database in this research.

The first three were trained and tested by using each individual digital subset.

The fourth one was conducted on these three subsets collectively (i.e., trained by using all three training subsets and tested by using all three testing subsets).

In the following three experiments, the training subset was the same as that of the fourth experiment but the testing subsets were the same as that of the first three experiments.

The eighth experiment was on the Arabic alphabets, and the ninth one was applied on the digits and the alphabets collectively.

The research has three main phases ; first designing the system by using only the Arabic digits, second working on the Arabic alphabets to be recognized, analyzed, and evaluated, third the combination of the Arabic digits and alphabets together.

The system achieved 94.13 % overall correct digit recognition in the noisy environment using mixed training and testing subsets collectively.

In the case of the alphabet subsets, the overall system performance was 64.06 %, which is reasonably high where our database consists of a noisy corpus.

With mixed alphabets and digits, the overall system accuracy was 76.06 % which is better than the alphabet experiments but much less than those conducted for the digits.

The paper includes some future work suggestions in addition to recommendations for the SAAVB design and management community at KACST.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Ghamidi, Mansur M.& al-Utaybi, Yusuf Ajami. 2010. HMM automatic speech recognition system of Arabic alphadigits. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.137-155.
https://search.emarefa.net/detail/BIM-308416

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Ghamidi, Mansur M.& al-Utaybi, Yusuf Ajami. HMM automatic speech recognition system of Arabic alphadigits. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.137-155.
https://search.emarefa.net/detail/BIM-308416

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Ghamidi, Mansur M.& al-Utaybi, Yusuf Ajami. HMM automatic speech recognition system of Arabic alphadigits. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.137-155.
https://search.emarefa.net/detail/BIM-308416

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 154-155

رقم السجل

BIM-308416