The impact of text preprocessing and term weighting on Arabic text classification
العناوين الأخرى
أثر معالجة النصوص و توزين الكلمات على تصنيف النصوص العربية
مقدم أطروحة جامعية
مشرف أطروحة جامعية
أعضاء اللجنة
Abu Haybah, Ibrahim S. I.
al-Halis, Ala Mustafa
الجامعة
الجامعة الإسلامية
الكلية
كلية الهندسة
القسم الأكاديمي
قسم هندسة الحاسوب
دولة الجامعة
فلسطين (قطاع غزة)
الدرجة العلمية
ماجستير
تاريخ الدرجة العلمية
2010
الملخص الإنجليزي
This research presents and compares the impact of text preprocessing, which has not been addressed before, on Arabic text classification using popular text classification algorithms; Decision Tree, K Nearest Neighbors, Support Vector Machines, Naïve Bayes and its variations.
Text preprocessing includes applying different term weighting schemes, and Arabic morphological analysis (stemming and light stemming).
We implemented and integrated Arabic morphological analysis tools within the leading open source machine learning tools : Weka, and RapidMiner.
Text Classification algorithms are applied on seven Arabic corpora (3 in-house collected and 4 existing corpora).
Experimental results show : (1) Light stemming with term pruning is best feature reduction technique.
(2) Support Vector Machines and Naïve Bayes variations outperform other algorithms.
(3) Weighting schemes impact the performance of distance based classifier.
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
عدد الصفحات
100
قائمة المحتويات
Table of contents.
Abstract.
Chapter 1 : Introduction.
Chapter 2 : Related work.
Chapter 3 : Text classifiers.
Chapter 4 : Text preprocessing.
Chapter 5 : Corpora.
Chapter 6 : Experimental results and analysis.
Chapter 7 : Conclusion and future work.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Sad, Mutazz Khalid. (2010). The impact of text preprocessing and term weighting on Arabic text classification. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-300841
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Sad, Mutazz Khalid. The impact of text preprocessing and term weighting on Arabic text classification. (Master's theses Theses and Dissertations Master). Islamic University. (2010).
https://search.emarefa.net/detail/BIM-300841
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Sad, Mutazz Khalid. (2010). The impact of text preprocessing and term weighting on Arabic text classification. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-300841
لغة النص
الإنجليزية
نوع البيانات
رسائل جامعية
رقم السجل
BIM-300841
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر