Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language

المؤلفون المشاركون

Harrag, Fawzi
Sharif Hamdi, Abu Bakr
al-Salman, Abd al-Malak Salman

المصدر

The Arabian Journal for Science and Engineering. Section C, Theme issues

العدد

المجلد 35، العدد 2C(s) (31 ديسمبر/كانون الأول 2010)، ص ص. 184-202، 19ص.

الناشر

جامعة الملك فهد للبترول و المعادن

تاريخ النشر

2010-12-31

دولة النشر

السعودية

عدد الصفحات

19

التخصصات الرئيسية

اللغات والآداب المقارنة
تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

تعد التجزئة الموضوعية مكونا أساسيا للعديد من تطبيقات معالجة اللغات الطبيعية مثل تطبيق تلخيص النصوص و استرجاع المعلومات.

الهدف من هذا البحث هو تقويم فعالية خوارزميات التجزئة الموضوعية في التعرف على الحدود الموضوعية داخل النصوص العربية.

و تم – في هذا السياق – استدعاء سبعة من قراء اللغة العربية للتعرف على تغيرات الموضوع أو الفكرة التي يلاحظونها داخل خمسة نصوص عربية من مصادر مختلفة.

و سوف يتم استخدام الآراء الناتجة في تقويم الفعالية النسبية للخوارزميتين الأكثر اشتهارا في مجال التجزئة الموضوعية ألا و هما خوارزمية سي 99 و خوارزمية قرميد النص (تاكس-تيلين) وذلك باستخدام مقاييس تقويم معروفة مثل الاسترجاع و الدقة و مقاييس أخرى جديدة مثل طريقة آراء (أحكام) القراء.

و تبين النتائج التجريبية أنه بإجراء بعض التحسينات الطفيفة فإن الخوارزميات المستخدمة في التجزئة الموضوعية للنصوص الإنجليزية تصبح صالحة للاستخدام مع النصوص العربية.

الملخص EN

-Topic segmentation is essential for a lot of Natural Language Processing (NLP) applications, such as text summarization or information extraction.

The objective of this research is to evaluate the effectiveness of topic segmentation algorithms in identifying the thematic breaks in Arabic texts.

For this aim, a group of 7 readers are asked to identify the changes of theme that they discerned in 5 Arabic texts of different domains.

The resulting judgments are used to evaluate the relative performance of two of the main algorithms of segmentation proposed in the literature : C99 and Text Tiling, using the classical Recall / Precision evaluation metrics and the recently introduced Reader Judgment method.

The experimental results show that with only a few improvements, existing algorithms for segmenting English texts are also efficient for segmenting Arabic texts.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Harrag, Fawzi& Sharif Hamdi, Abu Bakr& al-Salman, Abd al-Malak Salman. 2010. Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.184-202.
https://search.emarefa.net/detail/BIM-308427

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Harrag, Fawzi…[et al.]. Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.184-202.
https://search.emarefa.net/detail/BIM-308427

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Harrag, Fawzi& Sharif Hamdi, Abu Bakr& al-Salman, Abd al-Malak Salman. Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.184-202.
https://search.emarefa.net/detail/BIM-308427

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 200-202

رقم السجل

BIM-308427