A comparative study of the efficiency of different measures to classify arabic text

Joint Authors

al-Kabi, Muhammad Naji
al-Sinjilawi, Saja I.

Source

University of Sharjah Journal of Pure and Applied Sciences

Issue

Vol. 4, Issue 2 (30 Jun. 2007), pp.13-26, 14 p.

Publisher

University of Sharjah

Publication Date

2007-06-30

Country of Publication

United Arab Emirates

No. of Pages

14

Main Subjects

Information Technology and Computer Science

Topics

Abstract AR

هناك حاجة حقيقية لتصنيف النصوص الكتابية بشكل ذاتي (أوتوماتيكي) مستعينين بالحاسوب في العديد من الحقول.

و يوجد اليوم العديد من الطرق المعتمدة في تصنيف النصوص الكتابية بمختلف اللغات الطبيعية.

و تقوم هذه الدراسة على طريقة TF-IDF لحساب أوزان المفردات المهمة التي تحويها الملفات النصية (Text Files) المطلوب تصنيفها, و أوزان المفردات التي يحويها كل صنف (Class).

و لقد تم اختبار الطرق الأربعة الخاصة بنموذج فضاء المتجهات (VSM) و هي : طرق جيب تمام (Cosine) و جاكارد (Jaccard) و الضرب الداخلي (Inner Product) و دايس (Dice), و تبين أن أفضلها هي طريقة الجيب تمام.

و من اشتملت المرحلة التالية على إجراء مقارنات ما بين طريقة الجيب تمام و طريقة البيسين (Naïve Bayesian) و الطريقة الإقليدية (Euclidean Measure), ليتبين لنا بأن طريقة البيسين (Naïve Bayesian) هي الأفضل.

لقد تم إجراء الاختبارات الخاصة بدقة هذه الطرق على ملفات نصية تضم الأحاديث النبوية الشريفة.

Abstract EN

The aim of this study is to find the optimal method that can be used to classify Arabic text among the six methods (inner product, cosine, Jaccard, Dice, Naïve Bayesian, and Euclidean).

Automatic text classification has been needed in many fields for a long time.

Many methods are used to classify text.

This study will investigate the use of TF-IDF to obtain document vector.

A document vector will be used to compute and compare four different associative coefficients of the vector space model (VSM) based on the inner product, cosine, Jaccard and Dice, in order to find the best for Arabic text classification.

We found that the cosine measure outperformed the other three associative coefficients of the VSM.

Finally we compare the efficiencies of the cosine measure, Naïve Bayesian, and Euclidean Measure to classify Arabic text.

Experimental results on the same set of Arabic documents used before show that Naïve Bayesian slightly outperforms the other methods.

Comparison reported in this paper shows that the Naïve Bayesian method surpasses the other five methods.

American Psychological Association (APA)

al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. 2007. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences،Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140

Modern Language Association (MLA)

al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences Vol. 4, no. 2 (Jun. 2007), pp.13-26.
https://search.emarefa.net/detail/BIM-26140

American Medical Association (AMA)

al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences. 2007. Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 24-26

Record ID

BIM-26140