A preliminary study of prosody-based detection of questions in Arabic speech monologues

المؤلفون المشاركون

Khan, Umayr
al-Khatib, Wasfi G.
Cheded, Lahouari

المصدر

The Arabian Journal for Science and Engineering. Section C, Theme issues

العدد

المجلد 35، العدد 2C(s) (31 ديسمبر/كانون الأول 2010)، ص ص. 167-181، 15ص.

الناشر

جامعة الملك فهد للبترول و المعادن

تاريخ النشر

2010-12-31

دولة النشر

السعودية

عدد الصفحات

15

التخصصات الرئيسية

اللغات والآداب المقارنة
تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

يستخدم على الإيقاع و النبرات الصوتية (Prosody) على نطاق واسع في العديد من التطبيقات المتعلقة بمعالجة المنطوق، منها التعرف على الكلام و التعرف على المتكلم و لهجته و تحديد المشاعر، كما يستخدم هذا العلم أيضا في التصنيف الموضوعي للكلام و تقطيعه آليا إلى جمل و في تطبيقات تحويل النص المكتوب إلى قراءة مسموعة، و قد لقيت لغات أخرى غير العربية كثيرا من الاهتمام في هذا الصدد.

و سوف نتعرض في هذه الدراسة إلى أحد التطبيقات المهمة لعلم الإيقاع و النبرات الصوتية، و هو تحديد مقاطع الأسئلة المطروحة في المحاضرات و الدروس العربية المسجلة، و تعد هذه الدراسة بحسب علمنا رائدة على نطاق لغات العالم في مجال الاستخراج الآلي للأسئلة من المحاضرات الصوتية المسجلة، لذا قمنا ببناء مكنز محدود مكون من 1028 جملة منطوقة مستخلصة من 15 محاضرة عربية صوتية، قمنا أولا بتقطيع الكلام المتصل إلى جمل اعتمادا على ميزات المدة الزمنية (Duration) و ميزات الكثافة الصوتية.

(Intensity) ثم قمنا باستخلاص سمات الإيقاع و النبرات الصوتية من الجمل المقطعة، بعدها أدخلنا هذه السمات إلى أربعة مصنفات مختلفة ليتم تحديد الجملة كونها سؤالا أم لا.

و قد أشارت نتائج التنصيف إلى وجود أكثر من سمة صوتية تساعد على التعرف على الأسئلة في الكلام العربي التلقائي، و قد تمكنا من التعرف على الأسئلة بدقة إلى 77.43%.

و بتحليل أدق للميزات المستخلصة من الجمل نستنتج أن ميزات الطاقة (Energy) و التردد الأساسي (ر0) (Fundamental Frequency F0) لها أكبر الأثر في التصنيف الصحيح للجمل إلى أسئلة أو غير أسئلة.

أما بالنسبة للمصنفات المختلفة فقد وجدنا أن شبكة بايز (Bayes Network) فاقت كلا من آلات المتجهات المساندة (Support Vector Machines) و الشبكات العصبية الممثلة ببرسبترون متعدد الطبقات (Multilayer Perceptron Neural Networks) و الأشجار التقريرية (Decision Trees) عند استخدامها على بياناتنا.

كما وجدنا أن النتائج المتحققة من إزالة الميزات المتعلقة بعضها ببعض باستخدام طريقة الاختيار المبني على ارتباط الميزات ببعضها بعضا (Correlation-based Feature Selection) كانت أفضل من تلك الناتجة عن استخدام مجموعة الميزات الكاملة.

الملخص EN

Prosody features have been widely used in many speech-related applications, including speaker and word recognition, emotion and accent identification, topic and sentence segmentation, and text-to-speech applications.

Languages other than Arabic have received a lot of attention in this regard.

An important application of prosodic features which is investigated here is that of identifying question sentences in Arabic monologue lectures.

To our best knowledge, this is the first attempt at addressing question detection from spoken lectures in any language.

To this end, we developed a small corpus made of 1028 utterances that were extracted from 15 Arabic spoken lectures.

We approach this problem by first segmenting the continuous speech (recorded lectures) into sentences using both intensity and duration features.

Prosodic features are, then, extracted from each sentence.

These features are used as input to four different classifiers to classify each sentence into either a question or a non-question sentence.

Our results suggest that questions are cued by more than one type of prosodic features in spontaneous Arabic speech.

We classified questions with an accuracy of 77.43 %.

A feature-specific analysis further reveals that energy and fundamental frequency (F0) features are mainly responsible for discriminating between question and no question sentences.

In terms of classification, we found that a Bayes Network performs better than support vector machines, multi-layer perceptron neural networks, or decision trees on our dataset.

Removal of correlated features through Correlation-based Feature Selection produced more efficient and accurate results than the complete feature set.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Khan, Umayr& al-Khatib, Wasfi G.& Cheded, Lahouari. 2010. A preliminary study of prosody-based detection of questions in Arabic speech monologues. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.167-181.
https://search.emarefa.net/detail/BIM-308424

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Khan, Umayr…[et al.]. A preliminary study of prosody-based detection of questions in Arabic speech monologues. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.167-181.
https://search.emarefa.net/detail/BIM-308424

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Khan, Umayr& al-Khatib, Wasfi G.& Cheded, Lahouari. A preliminary study of prosody-based detection of questions in Arabic speech monologues. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.167-181.
https://search.emarefa.net/detail/BIM-308424

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 179-181

رقم السجل

BIM-308424