Exploiting semantic and statistical features to summarize Arabic Wikipedia articles

Other Title(s)

استغلال الخصائص الإحصائية و الدلالية لتلخيص مقالات الويكيبيديا العربية

Dissertant

Samarah, Shadi Fayiz Mahmud

Thesis advisor

al-Agha, Iyad Muhammad

University

Islamic University

Faculty

Faculty of Information Technology

Department

Information Technology

University Country

Palestine (Gaza Strip)

Degree

Master

Degree Date

2018

Arabic Abstract

ويكيبيديا هي واحدة من أغنى قواعد المعرفة و أكثرها استخداما على الويب، لذا يرجع اليه مستخدمي الانترنت في الكثير من الاحيان للبحث عن المعلومات و المواضيع التي يحتاجونها، لكن عملية القراءة و البحث في الويكيبديا قد تستهلك وقت كبير خاصة عندما تكون المواضيع طويلة، بالإضافة الى الصعوبة التي من الممكن ان يواجهها المستخدم عندما يقرأ مثل هذه المواضيع الطويلة على شاشات صغيرة مثل شاشات الجوال، و من هنا ظهرت فكرة تلخيص محتوى صفحات الويكيبديا كحل للمشاكل التي قد تظهر نتيجة طول المواضيع فتلخيص مثل هذه المقالات سوف يسهل على المستخدم قراءتها و الاستفادة من المعلومات التي تحتويها بسر و بسهولة ، كما أنه سيجعل قراءة هذه المواضيع سهلة على الاجهزة ذات الشاشات صغيرة الحجم مثل الجوالات.

في العقد الماضي ازداد حجم الأبحاث التي ركزت على تلخيص النص العربي، الا ان قليل من هذه الجهود و الابحاث قامت باستغلال العلاقات الدلالية بين الكلمات الموجودة في موضوع معين و بين جمله، هذه العلاقات من الممكن ان تساعد بشكل كبير في تحسين التلخيص و استخراج الجمل المهمة من الموضوع.

هذا البحث يقترح منهجية جديدة لتلخيص المواضيع العربية للويكيبديا باستخراج الجمل المهمة و اهمال الجمل الغير مهمة تمزج المنهجية المقترحة بين ميزات الخصائص الاحصائية للكلمات و الجمل الموجودة في الموضوع و بين العلاقات الدلالية بين هذه الجمل وعناوين الويكيبديا التي تحتويها لتحديد أهمية الجملة، تم استخدام العديد من الخصائص الاحصائية التي من الممكن ان تدل على أهمية الجملة مثل موقع الجملة في الموضوع، طول الجملة و تشابه الجملة مع عنوان الموضوع بينما استخدمت خوارزمية تحليل الدلالات الكامنة لاستخراج العلاقات الدلالية بين الجمل، كما استخدمت عدد عناوين الويكيبديا التي تحتويها كل جملة لتحسين جودة التلخيص.

بناءا على قراءتنا لم نجد أي بحث لحتى الان استخدم هذا المزيج من الخصائص في تلخيص مواضيع اللغة العربية، كما اننا قمنا بدراسة مدى تأثير كل خاصية في جودة التلخيص، و بناءا على النتائج قمنا بإعطاء كل خاصية وزن يتناسب مع اهميتها للحصول على أفضل جودة للتلخيص.

في هذا البحث قمنا باستخدام مجموعة من النصوص تدعى ( اسكس) لتقييم عملنا، تحتوي هذه المجموعة على أكثر من 100 موضوع ويكيبديا مع تلاخيصهم التي تم انتاجها بواسطة بشر.

كما استخدمنا أداة تدعي روف للمقارنة ما بين التلاخيص التي انتجتها منهجيتنا و التلاخيص التي انتجتها أداة اخرى تدعى tools4noob ، حيث قمنا باختبار جودة تلخيص كل منهجية بمقارنته مع التلاخيص الموجودة في مجموعة اسكس التي تم انتاجها بواسطة خبراء بشر.

النتائج أظهرت تفوق منهجيتنا على منهجية ال tools4noob التي تعتبر من أكثر الأدوات استخداما في الانترنت لتلخيص النصوص العربية، حيث حصلت منهجيتنا على= F-Mesure 0.519723 بينما حصلت أداة ال tools4noob على F-Measure = 0.394842، منهجيتنا أظهرت تفوقا ملحوظا في مقياس ال Recall، لكن كلتا المنهجيتان حصلتا على نتائج متقاربة في مقياس الـ precision.

English Abstract

Wikipedia is one of the richest and most widely used knowledge bases on the Web.

People extensively refer to Wikipedia articles to get broad information about topics of interest.

However, reading from Wikipedia can be sometimes time-consuming because articles can be lengthy.

In addition, the readability of these lengthy articles can be difficult from mobile devices with small screens.

Therefore, the summarization of Wikipedia articles can help people rapidly perceive knowledge, and makes text easily readable from mobile devices.

In the past decade, the amount of researches that have focused on Arabic text summarization has grown extensively.

However, little efforts have exploited the semantic relations between words and sentences when performing the Arabic text summarization.

This work proposes a hybrid approach for Wikipedia text summarization.

The approach combines a variety of techniques that leverage semantic, Wikipedia based and statistical features for text summarization.

Several statistical features including the length of the sentence, the position of the sentence in the document, and the resemblance to the title words were used to determine importance sentences for text summarization.

For semantic features, the approach performs Latent Semantic Analysis (LSA) on Wikipedia articles to determine semantic relations between sentences.

It also exploits the Wikipedia structure to improve summarization.

To our knowledge, few efforts in the domain of Arabic text have considered LSA and Wikipedia structure for Arabic text summarization.

This work also explores, through experiments, the impact of each type of features on the summarization results, and how to combine different features together to achieve the best results.

We have used EASC corpus that contains more than 100 Wikipedia articles with their human generated summaries to evaluate the proposed approach.

We used a tool called ROUGE to compare the results of the summary produced by our approach with the results produced by an online summarization tool called tools4noob, whereas the human generated summarizations were used as a reference for comparison.

Results show that our approach outperforms the tools4noobs in terms of F-measure (F-measure = 0.519723 for our approach, F-measure =0.394842 for tools4noobs).

Our approach achieves higher recall, but the difference in precision was marginal.

Main Subjects

Information Technology and Computer Science

Topics

No. of Pages

77

Table of Contents

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Background.

Chapter Three : Literature review.

Chapter Four : The proposed approach.

Chapter Five : Evaluation.

Chapter Six : Conclusion and future work.

References.

American Psychological Association (APA)

Samarah, Shadi Fayiz Mahmud. (2018). Exploiting semantic and statistical features to summarize Arabic Wikipedia articles. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905898

Modern Language Association (MLA)

Samarah, Shadi Fayiz Mahmud. Exploiting semantic and statistical features to summarize Arabic Wikipedia articles. (Master's theses Theses and Dissertations Master). Islamic University. (2018).
https://search.emarefa.net/detail/BIM-905898

American Medical Association (AMA)

Samarah, Shadi Fayiz Mahmud. (2018). Exploiting semantic and statistical features to summarize Arabic Wikipedia articles. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905898

Language

English

Data Type

Arab Theses

Record ID

BIM-905898