A preliminary study of prosody-based detection of questions in Arabic speech monologues

Joint Authors

Khan, Umayr
al-Khatib, Wasfi G.
Cheded, Lahouari

Source

The Arabian Journal for Science and Engineering. Section C, Theme issues

Issue

Vol. 35, Issue 2C(s) (31 Dec. 2010), pp.167-181, 15 p.

Publisher

King Fahd University of Petroleum and Minerals

Publication Date

2010-12-31

Country of Publication

Saudi Arabia

No. of Pages

15

Main Subjects

Languages & Comparative Literature
Information Technology and Computer Science

Topics

Abstract AR

يستخدم على الإيقاع و النبرات الصوتية (Prosody) على نطاق واسع في العديد من التطبيقات المتعلقة بمعالجة المنطوق، منها التعرف على الكلام و التعرف على المتكلم و لهجته و تحديد المشاعر، كما يستخدم هذا العلم أيضا في التصنيف الموضوعي للكلام و تقطيعه آليا إلى جمل و في تطبيقات تحويل النص المكتوب إلى قراءة مسموعة، و قد لقيت لغات أخرى غير العربية كثيرا من الاهتمام في هذا الصدد.

و سوف نتعرض في هذه الدراسة إلى أحد التطبيقات المهمة لعلم الإيقاع و النبرات الصوتية، و هو تحديد مقاطع الأسئلة المطروحة في المحاضرات و الدروس العربية المسجلة، و تعد هذه الدراسة بحسب علمنا رائدة على نطاق لغات العالم في مجال الاستخراج الآلي للأسئلة من المحاضرات الصوتية المسجلة، لذا قمنا ببناء مكنز محدود مكون من 1028 جملة منطوقة مستخلصة من 15 محاضرة عربية صوتية، قمنا أولا بتقطيع الكلام المتصل إلى جمل اعتمادا على ميزات المدة الزمنية (Duration) و ميزات الكثافة الصوتية.

(Intensity) ثم قمنا باستخلاص سمات الإيقاع و النبرات الصوتية من الجمل المقطعة، بعدها أدخلنا هذه السمات إلى أربعة مصنفات مختلفة ليتم تحديد الجملة كونها سؤالا أم لا.

و قد أشارت نتائج التنصيف إلى وجود أكثر من سمة صوتية تساعد على التعرف على الأسئلة في الكلام العربي التلقائي، و قد تمكنا من التعرف على الأسئلة بدقة إلى 77.43%.

و بتحليل أدق للميزات المستخلصة من الجمل نستنتج أن ميزات الطاقة (Energy) و التردد الأساسي (ر0) (Fundamental Frequency F0) لها أكبر الأثر في التصنيف الصحيح للجمل إلى أسئلة أو غير أسئلة.

أما بالنسبة للمصنفات المختلفة فقد وجدنا أن شبكة بايز (Bayes Network) فاقت كلا من آلات المتجهات المساندة (Support Vector Machines) و الشبكات العصبية الممثلة ببرسبترون متعدد الطبقات (Multilayer Perceptron Neural Networks) و الأشجار التقريرية (Decision Trees) عند استخدامها على بياناتنا.

كما وجدنا أن النتائج المتحققة من إزالة الميزات المتعلقة بعضها ببعض باستخدام طريقة الاختيار المبني على ارتباط الميزات ببعضها بعضا (Correlation-based Feature Selection) كانت أفضل من تلك الناتجة عن استخدام مجموعة الميزات الكاملة.

Abstract EN

Prosody features have been widely used in many speech-related applications, including speaker and word recognition, emotion and accent identification, topic and sentence segmentation, and text-to-speech applications.

Languages other than Arabic have received a lot of attention in this regard.

An important application of prosodic features which is investigated here is that of identifying question sentences in Arabic monologue lectures.

To our best knowledge, this is the first attempt at addressing question detection from spoken lectures in any language.

To this end, we developed a small corpus made of 1028 utterances that were extracted from 15 Arabic spoken lectures.

We approach this problem by first segmenting the continuous speech (recorded lectures) into sentences using both intensity and duration features.

Prosodic features are, then, extracted from each sentence.

These features are used as input to four different classifiers to classify each sentence into either a question or a non-question sentence.

Our results suggest that questions are cued by more than one type of prosodic features in spontaneous Arabic speech.

We classified questions with an accuracy of 77.43 %.

A feature-specific analysis further reveals that energy and fundamental frequency (F0) features are mainly responsible for discriminating between question and no question sentences.

In terms of classification, we found that a Bayes Network performs better than support vector machines, multi-layer perceptron neural networks, or decision trees on our dataset.

Removal of correlated features through Correlation-based Feature Selection produced more efficient and accurate results than the complete feature set.

American Psychological Association (APA)

Khan, Umayr& al-Khatib, Wasfi G.& Cheded, Lahouari. 2010. A preliminary study of prosody-based detection of questions in Arabic speech monologues. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.167-181.
https://search.emarefa.net/detail/BIM-308424

Modern Language Association (MLA)

Khan, Umayr…[et al.]. A preliminary study of prosody-based detection of questions in Arabic speech monologues. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.167-181.
https://search.emarefa.net/detail/BIM-308424

American Medical Association (AMA)

Khan, Umayr& al-Khatib, Wasfi G.& Cheded, Lahouari. A preliminary study of prosody-based detection of questions in Arabic speech monologues. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.167-181.
https://search.emarefa.net/detail/BIM-308424

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 179-181

Record ID

BIM-308424