Exploiting Wikipedia to measure semantic relatedness between Arabic terms

Other Title(s)

استغلال الموسوعة الحرة "ويكيبيديا" لقياس العلاقة الدلالية بين المصطلحات العربية

Dissertant

al-Hajj, Basil Abd al-Azim Muhammad

Thesis advisor

al-Agha, Iyad Muhammad

University

Islamic University

Faculty

Faculty of Information Technology

Department

Information Technology

University Country

Palestine (Gaza Strip)

Degree

Master

Degree Date

2019

Arabic Abstract

تلعب مقاييس الارتباط الدلالي دورا مهما في العديد من تطبيقات معالجة اللغة الطبيعية مثل استخراج المعلومات و استرجاعها، تلخيص النص و تعليمه، تصنيف المستندات و تجميعها، الإجابة على الأسئلة.

بعض هذه المقاييس تحب العالقة الدولية بين المصطلحات باستخدام و يكيبيديا لأنها تمثل واحدة من أكبر مصادر المعرفة التي تحتوي على عدد كبير من المصطلحات بلغات مختلفة و في مجالات متعددة.

و مع ذلك، أبحاث محدودة استكشفت العاشقة الدلالية بين المصطلحات العربية.

يقترح هذا العمل طريقة لقياس الترابط الدلالي بين المصطلحات العربية اعتمادا على هيكل و يكيبيديا يستغل النهج نوعين من العلاقات لقياس العالقة بين المصطلحات العربية العالقة القائمة على السباق و العاشقة القائمة على الفلة تقاس العاشقة القائمة على السياق اعتمادا على التقاطع بين الروابط الواردة لمقالات و يكيبيديا، في حين يتم قياس العالقة القائمة على التصنيف باستخدام مقياسين لقيمة المعلومات يعتمد كل منهما على تصنيفات المقالة و الترتيب الهرمي لتصنيفات و يكيبيديا الإنجاز هذا العمل، تمت مواجهة و مناقشة بعض التحديات المتعلقة بالتصميم و التنفيذ، و من ضمنها إعداد و يكيبيديا العربية و تكوينها، مطابقة المصطلحات مع مقالات ويكيبيديا ذات الصلة، إنشاء رسم بياني تتصنيفات و يكيبيديا، إنشاء خرائط عمق التصفيف و أحفاد التصنيف.

لتقييم النهج المقترح، استخدمنا مجموعة بيانات من مجموعة اختبار 353 - Wordsimilarity و التي تحتوي على 120 زوجا من المصطلحات مع درجة الترابط المعينة لها من قبل الإنسان تمت مقارنة النتائج التي انتجها نهجنا بنتائج الحكم البشري و كذلك نتائج المناهج الأخرى التي استخدمت ويكيبيديا الإنجليزية كمصدر للمعرفة العاشقة بين نتائج نهجنا و الأحكام البشرية المقابلة كانت 0.66 لقد تفوقت نتائجنا على نتائج بعض الطرق السابقة التي استخدمت نفس مجموعة البيانات باللغة الإنجليزية.

و مع ذلك، فإن ضعف بنية و محتوى النسخة العربية من ويكيبيديا قد نتج عنه بعض نتائج التشابه الغير الصحيحة.

English Abstract

Semantic relatedness measures play important role in many natural language processing applications such as information extraction and retrieval, text summarization and annotation, document classification and clustering and question answering.

Some of these measures calculate the semantic relatedness between terms by using Wikipedia because it represents one of the largest sources of knowledge which contains huge number of terms in different languages and in multiple domains.

However, limited researches have explored semantic relatedness between Arabic terms.

This work proposes a knowledge-based approach for measuring semantic relatedness between Arabic terms based on the structure of Wikipedia.

The approach exploits two types of relations to measure relatedness between Arabic terms : contextbased relation and category-based relation.

The context-based relation is measured based on the intersection between incoming links to Wikipedia articles, while the category-based relation it is measured by using two information value metrics each of which depends on the article's categories and the hierarchy of Wikipedia categories.

To accomplish this work, some challenges related to design and implementation have been encountered and discussed, including setting up and configuring Arabic Wikipedia, matching terms to relevant Wikipedia articles, constructing Wikipedia category graph, and creating the maps of category depth and descendants.

To evaluate the proposed approach, we have used a dataset from Word Similarity- 353 Test Collection which contains 120 pairs of terms, along with human-assigned relatedness score judgment.

Results produced by our approach were compared to the results of human judgment as well as the results of other approaches that used English Wikipedia as a background knowledge.

The correlation between the results of us approach and the corresponding human judgments was 0.66.

Our results outperformed the results of some previous approaches that used the same dataset in English.

However, the poor structure and content of the Arabic version of Wikipedia has resulted in few incorrect similarity scores.

Main Subjects

Information Technology and Computer Science

Topics

No. of Pages

76

Table of Contents

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Literature review.

Chapter Three : Methodology.

Chapter Four : Design and implementation

Chapter Five : Evaluation.

Chapter Six : Conclusion and future work.

References.

American Psychological Association (APA)

al-Hajj, Basil Abd al-Azim Muhammad. (2019). Exploiting Wikipedia to measure semantic relatedness between Arabic terms. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905279

Modern Language Association (MLA)

al-Hajj, Basil Abd al-Azim Muhammad. Exploiting Wikipedia to measure semantic relatedness between Arabic terms. (Master's theses Theses and Dissertations Master). Islamic University. (2019).
https://search.emarefa.net/detail/BIM-905279

American Medical Association (AMA)

al-Hajj, Basil Abd al-Azim Muhammad. (2019). Exploiting Wikipedia to measure semantic relatedness between Arabic terms. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905279

Language

English

Data Type

Arab Theses

Record ID

BIM-905279