Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language

Joint Authors

Harrag, Fawzi
Sharif Hamdi, Abu Bakr
al-Salman, Abd al-Malak Salman

Source

The Arabian Journal for Science and Engineering. Section C, Theme issues

Issue

Vol. 35, Issue 2C(s) (31 Dec. 2010), pp.184-202, 19 p.

Publisher

King Fahd University of Petroleum and Minerals

Publication Date

2010-12-31

Country of Publication

Saudi Arabia

No. of Pages

19

Main Subjects

Languages & Comparative Literature
Information Technology and Computer Science

Topics

Abstract AR

تعد التجزئة الموضوعية مكونا أساسيا للعديد من تطبيقات معالجة اللغات الطبيعية مثل تطبيق تلخيص النصوص و استرجاع المعلومات.

الهدف من هذا البحث هو تقويم فعالية خوارزميات التجزئة الموضوعية في التعرف على الحدود الموضوعية داخل النصوص العربية.

و تم – في هذا السياق – استدعاء سبعة من قراء اللغة العربية للتعرف على تغيرات الموضوع أو الفكرة التي يلاحظونها داخل خمسة نصوص عربية من مصادر مختلفة.

و سوف يتم استخدام الآراء الناتجة في تقويم الفعالية النسبية للخوارزميتين الأكثر اشتهارا في مجال التجزئة الموضوعية ألا و هما خوارزمية سي 99 و خوارزمية قرميد النص (تاكس-تيلين) وذلك باستخدام مقاييس تقويم معروفة مثل الاسترجاع و الدقة و مقاييس أخرى جديدة مثل طريقة آراء (أحكام) القراء.

و تبين النتائج التجريبية أنه بإجراء بعض التحسينات الطفيفة فإن الخوارزميات المستخدمة في التجزئة الموضوعية للنصوص الإنجليزية تصبح صالحة للاستخدام مع النصوص العربية.

Abstract EN

-Topic segmentation is essential for a lot of Natural Language Processing (NLP) applications, such as text summarization or information extraction.

The objective of this research is to evaluate the effectiveness of topic segmentation algorithms in identifying the thematic breaks in Arabic texts.

For this aim, a group of 7 readers are asked to identify the changes of theme that they discerned in 5 Arabic texts of different domains.

The resulting judgments are used to evaluate the relative performance of two of the main algorithms of segmentation proposed in the literature : C99 and Text Tiling, using the classical Recall / Precision evaluation metrics and the recently introduced Reader Judgment method.

The experimental results show that with only a few improvements, existing algorithms for segmenting English texts are also efficient for segmenting Arabic texts.

American Psychological Association (APA)

Harrag, Fawzi& Sharif Hamdi, Abu Bakr& al-Salman, Abd al-Malak Salman. 2010. Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.184-202.
https://search.emarefa.net/detail/BIM-308427

Modern Language Association (MLA)

Harrag, Fawzi…[et al.]. Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.184-202.
https://search.emarefa.net/detail/BIM-308427

American Medical Association (AMA)

Harrag, Fawzi& Sharif Hamdi, Abu Bakr& al-Salman, Abd al-Malak Salman. Comparative study of topic segmentation algorithms based on lexical cohesion : experimental results on Arabic language. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.184-202.
https://search.emarefa.net/detail/BIM-308427

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 200-202

Record ID

BIM-308427