Exploiting Wikipedia to measure semantic relatedness between Arabic terms

العناوين الأخرى

استغلال الموسوعة الحرة "ويكيبيديا" لقياس العلاقة الدلالية بين المصطلحات العربية

مقدم أطروحة جامعية

al-Hajj, Basil Abd al-Azim Muhammad

مشرف أطروحة جامعية

al-Agha, Iyad Muhammad

الجامعة

الجامعة الإسلامية

الكلية

كلية تكنولوجيا المعلومات

القسم الأكاديمي

تكنولوجيا المعلومات

دولة الجامعة

فلسطين (قطاع غزة)

الدرجة العلمية

ماجستير

تاريخ الدرجة العلمية

2019

الملخص العربي

تلعب مقاييس الارتباط الدلالي دورا مهما في العديد من تطبيقات معالجة اللغة الطبيعية مثل استخراج المعلومات و استرجاعها، تلخيص النص و تعليمه، تصنيف المستندات و تجميعها، الإجابة على الأسئلة.

بعض هذه المقاييس تحب العالقة الدولية بين المصطلحات باستخدام و يكيبيديا لأنها تمثل واحدة من أكبر مصادر المعرفة التي تحتوي على عدد كبير من المصطلحات بلغات مختلفة و في مجالات متعددة.

و مع ذلك، أبحاث محدودة استكشفت العاشقة الدلالية بين المصطلحات العربية.

يقترح هذا العمل طريقة لقياس الترابط الدلالي بين المصطلحات العربية اعتمادا على هيكل و يكيبيديا يستغل النهج نوعين من العلاقات لقياس العالقة بين المصطلحات العربية العالقة القائمة على السباق و العاشقة القائمة على الفلة تقاس العاشقة القائمة على السياق اعتمادا على التقاطع بين الروابط الواردة لمقالات و يكيبيديا، في حين يتم قياس العالقة القائمة على التصنيف باستخدام مقياسين لقيمة المعلومات يعتمد كل منهما على تصنيفات المقالة و الترتيب الهرمي لتصنيفات و يكيبيديا الإنجاز هذا العمل، تمت مواجهة و مناقشة بعض التحديات المتعلقة بالتصميم و التنفيذ، و من ضمنها إعداد و يكيبيديا العربية و تكوينها، مطابقة المصطلحات مع مقالات ويكيبيديا ذات الصلة، إنشاء رسم بياني تتصنيفات و يكيبيديا، إنشاء خرائط عمق التصفيف و أحفاد التصنيف.

لتقييم النهج المقترح، استخدمنا مجموعة بيانات من مجموعة اختبار 353 - Wordsimilarity و التي تحتوي على 120 زوجا من المصطلحات مع درجة الترابط المعينة لها من قبل الإنسان تمت مقارنة النتائج التي انتجها نهجنا بنتائج الحكم البشري و كذلك نتائج المناهج الأخرى التي استخدمت ويكيبيديا الإنجليزية كمصدر للمعرفة العاشقة بين نتائج نهجنا و الأحكام البشرية المقابلة كانت 0.66 لقد تفوقت نتائجنا على نتائج بعض الطرق السابقة التي استخدمت نفس مجموعة البيانات باللغة الإنجليزية.

و مع ذلك، فإن ضعف بنية و محتوى النسخة العربية من ويكيبيديا قد نتج عنه بعض نتائج التشابه الغير الصحيحة.

الملخص الإنجليزي

Semantic relatedness measures play important role in many natural language processing applications such as information extraction and retrieval, text summarization and annotation, document classification and clustering and question answering.

Some of these measures calculate the semantic relatedness between terms by using Wikipedia because it represents one of the largest sources of knowledge which contains huge number of terms in different languages and in multiple domains.

However, limited researches have explored semantic relatedness between Arabic terms.

This work proposes a knowledge-based approach for measuring semantic relatedness between Arabic terms based on the structure of Wikipedia.

The approach exploits two types of relations to measure relatedness between Arabic terms : contextbased relation and category-based relation.

The context-based relation is measured based on the intersection between incoming links to Wikipedia articles, while the category-based relation it is measured by using two information value metrics each of which depends on the article's categories and the hierarchy of Wikipedia categories.

To accomplish this work, some challenges related to design and implementation have been encountered and discussed, including setting up and configuring Arabic Wikipedia, matching terms to relevant Wikipedia articles, constructing Wikipedia category graph, and creating the maps of category depth and descendants.

To evaluate the proposed approach, we have used a dataset from Word Similarity- 353 Test Collection which contains 120 pairs of terms, along with human-assigned relatedness score judgment.

Results produced by our approach were compared to the results of human judgment as well as the results of other approaches that used English Wikipedia as a background knowledge.

The correlation between the results of us approach and the corresponding human judgments was 0.66.

Our results outperformed the results of some previous approaches that used the same dataset in English.

However, the poor structure and content of the Arabic version of Wikipedia has resulted in few incorrect similarity scores.

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

عدد الصفحات

76

قائمة المحتويات

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Literature review.

Chapter Three : Methodology.

Chapter Four : Design and implementation

Chapter Five : Evaluation.

Chapter Six : Conclusion and future work.

References.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Hajj, Basil Abd al-Azim Muhammad. (2019). Exploiting Wikipedia to measure semantic relatedness between Arabic terms. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905279

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Hajj, Basil Abd al-Azim Muhammad. Exploiting Wikipedia to measure semantic relatedness between Arabic terms. (Master's theses Theses and Dissertations Master). Islamic University. (2019).
https://search.emarefa.net/detail/BIM-905279

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Hajj, Basil Abd al-Azim Muhammad. (2019). Exploiting Wikipedia to measure semantic relatedness between Arabic terms. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905279

لغة النص

الإنجليزية

نوع البيانات

رسائل جامعية

رقم السجل

BIM-905279