The impact of text preprocessing and term weighting on Arabic text classification

العناوين الأخرى

أثر معالجة النصوص و توزين الكلمات على تصنيف النصوص العربية

مقدم أطروحة جامعية

Sad, Mutazz Khalid

مشرف أطروحة جامعية

Ashur, Wisam

أعضاء اللجنة

Abu Haybah, Ibrahim S. I.
al-Halis, Ala Mustafa

الجامعة

الجامعة الإسلامية

الكلية

كلية الهندسة

القسم الأكاديمي

قسم هندسة الحاسوب

دولة الجامعة

فلسطين (قطاع غزة)

الدرجة العلمية

ماجستير

تاريخ الدرجة العلمية

2010

الملخص الإنجليزي

This research presents and compares the impact of text preprocessing, which has not been addressed before, on Arabic text classification using popular text classification algorithms; Decision Tree, K Nearest Neighbors, Support Vector Machines, Naïve Bayes and its variations.

Text preprocessing includes applying different term weighting schemes, and Arabic morphological analysis (stemming and light stemming).

We implemented and integrated Arabic morphological analysis tools within the leading open source machine learning tools : Weka, and RapidMiner.

Text Classification algorithms are applied on seven Arabic corpora (3 in-house collected and 4 existing corpora).

Experimental results show : (1) Light stemming with term pruning is best feature reduction technique.

(2) Support Vector Machines and Naïve Bayes variations outperform other algorithms.

(3) Weighting schemes impact the performance of distance based classifier.

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

عدد الصفحات

100

قائمة المحتويات

Table of contents.

Abstract.

Chapter 1 : Introduction.

Chapter 2 : Related work.

Chapter 3 : Text classifiers.

Chapter 4 : Text preprocessing.

Chapter 5 : Corpora.

Chapter 6 : Experimental results and analysis.

Chapter 7 : Conclusion and future work.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Sad, Mutazz Khalid. (2010). The impact of text preprocessing and term weighting on Arabic text classification. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-300841

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Sad, Mutazz Khalid. The impact of text preprocessing and term weighting on Arabic text classification. (Master's theses Theses and Dissertations Master). Islamic University. (2010).
https://search.emarefa.net/detail/BIM-300841

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Sad, Mutazz Khalid. (2010). The impact of text preprocessing and term weighting on Arabic text classification. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-300841

لغة النص

الإنجليزية

نوع البيانات

رسائل جامعية

رقم السجل

BIM-300841