A comparative study of the efficiency of different measures to classify arabic text
Joint Authors
al-Kabi, Muhammad Naji
al-Sinjilawi, Saja I.
Source
University of Sharjah Journal of Pure and Applied Sciences
Issue
Vol. 4, Issue 2 (30 Jun. 2007), pp.13-26, 14 p.
Publisher
Publication Date
2007-06-30
Country of Publication
United Arab Emirates
No. of Pages
14
Main Subjects
Information Technology and Computer Science
Topics
Abstract AR
هناك حاجة حقيقية لتصنيف النصوص الكتابية بشكل ذاتي (أوتوماتيكي) مستعينين بالحاسوب في العديد من الحقول.
و يوجد اليوم العديد من الطرق المعتمدة في تصنيف النصوص الكتابية بمختلف اللغات الطبيعية.
و تقوم هذه الدراسة على طريقة TF-IDF لحساب أوزان المفردات المهمة التي تحويها الملفات النصية (Text Files) المطلوب تصنيفها, و أوزان المفردات التي يحويها كل صنف (Class).
و لقد تم اختبار الطرق الأربعة الخاصة بنموذج فضاء المتجهات (VSM) و هي : طرق جيب تمام (Cosine) و جاكارد (Jaccard) و الضرب الداخلي (Inner Product) و دايس (Dice), و تبين أن أفضلها هي طريقة الجيب تمام.
و من اشتملت المرحلة التالية على إجراء مقارنات ما بين طريقة الجيب تمام و طريقة البيسين (Naïve Bayesian) و الطريقة الإقليدية (Euclidean Measure), ليتبين لنا بأن طريقة البيسين (Naïve Bayesian) هي الأفضل.
لقد تم إجراء الاختبارات الخاصة بدقة هذه الطرق على ملفات نصية تضم الأحاديث النبوية الشريفة.
Abstract EN
The aim of this study is to find the optimal method that can be used to classify Arabic text among the six methods (inner product, cosine, Jaccard, Dice, Naïve Bayesian, and Euclidean).
Automatic text classification has been needed in many fields for a long time.
Many methods are used to classify text.
This study will investigate the use of TF-IDF to obtain document vector.
A document vector will be used to compute and compare four different associative coefficients of the vector space model (VSM) based on the inner product, cosine, Jaccard and Dice, in order to find the best for Arabic text classification.
We found that the cosine measure outperformed the other three associative coefficients of the VSM.
Finally we compare the efficiencies of the cosine measure, Naïve Bayesian, and Euclidean Measure to classify Arabic text.
Experimental results on the same set of Arabic documents used before show that Naïve Bayesian slightly outperforms the other methods.
Comparison reported in this paper shows that the Naïve Bayesian method surpasses the other five methods.
American Psychological Association (APA)
al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. 2007. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences،Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140
Modern Language Association (MLA)
al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences Vol. 4, no. 2 (Jun. 2007), pp.13-26.
https://search.emarefa.net/detail/BIM-26140
American Medical Association (AMA)
al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences. 2007. Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140
Data Type
Journal Articles
Language
English
Notes
Includes bibliographical references : p. 24-26
Record ID
BIM-26140