![](/images/graphics-bg.png)
Improving Arabic light stemming in information retrieval systems
العناوين الأخرى
تحسين التجذير العربي الخفيف في أنظمة استرجاع البيانات
مقدم أطروحة جامعية
al-Musaddar, Muhammad Yahya Ali
مشرف أطروحة جامعية
أعضاء اللجنة
al-Hanjuri, Muhammad Ahmad Muhammad
Zaqqut, Ihab Salah al-Din
الجامعة
الجامعة الإسلامية
الكلية
كلية الهندسة
القسم الأكاديمي
قسم هندسة الحاسوب
دولة الجامعة
فلسطين (قطاع غزة)
الدرجة العلمية
ماجستير
تاريخ الدرجة العلمية
2014
الملخص الإنجليزي
Information retrieval refers to the retrieval of textual documents such as newsprint and magazine articles or Web documents.
Due to extensive research in the IR field, there are many retrieval techniques that have been developed for Arabic language.
The main objective of this research to improve Arabic information retrieval by enhancing light stemming and preprocessing stage and to contribute to the open source community, also establish a guideline for Arabic normalization and stop-word removal.
To achieve these objectives, we create a GUI toolkit that implements preprocessing stage that is necessary for information retrieval.
One of these steps is normalizing, which we improved and introduced a set of rules to be standardized and improved by other researchers.
The next preprocessing step we improved is stop-word removal, we introduced two different stop-word lists, the first one is intensive stop-word list for reducing the size of the index and ambiguous words, and the other is light stop-word list for better results with recall in information retrieval applications.
We improved light stemming by update a suffix rule, and introduce the use of Arabized words, 100 words manually collected, these words should not follow the stemming rules since they came to Arabic language from other languages, and show how this improve results compared to two popular stemming algorithms like Khoja and Larkey stemmers.
The proposed toolkit was integrated into a popular IR platform known as Terrier IR platform.
We implemented Arabic language support into the Terrier IR platform.
We used TF-IDF scoring model from Terrier IR platform.
We tested our results using OSAC datasets.
We used java programming language and Terrier IR platform for the proposed systems.
The infrastructure we used consisted of CORE I7 CPU ran speed at 3.4 GHZ and 8 GB RAM.
Keywords: light Stemming, preprocessing, Information Retrieval, Arabic Language, stop-word removal, open source
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
عدد الصفحات
83
قائمة المحتويات
Table of contents.
Abstract.
Abstract in Arabic.
Chapter One : Introduction.
Chapter Two : Related work.
Chapter Three : Background.
Chapter Four : Methodology.
Chapter Five : Experimental results.
Chapter Six : Conclusions.
References.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
al-Musaddar, Muhammad Yahya Ali. (2014). Improving Arabic light stemming in information retrieval systems. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-531724
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
al-Musaddar, Muhammad Yahya Ali. Improving Arabic light stemming in information retrieval systems. (Master's theses Theses and Dissertations Master). Islamic University. (2014).
https://search.emarefa.net/detail/BIM-531724
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
al-Musaddar, Muhammad Yahya Ali. (2014). Improving Arabic light stemming in information retrieval systems. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-531724
لغة النص
الإنجليزية
نوع البيانات
رسائل جامعية
رقم السجل
BIM-531724
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
![](/images/ebook-kashef.png)
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر
![](/images/kashef-image.png)