A comparative study of the efficiency of different measures to classify arabic text

المؤلفون المشاركون

al-Kabi, Muhammad Naji
al-Sinjilawi, Saja I.

المصدر

University of Sharjah Journal of Pure and Applied Sciences

العدد

المجلد 4، العدد 2 (30 يونيو/حزيران 2007)، ص ص. 13-26، 14ص.

الناشر

جامعة الشارقة

تاريخ النشر

2007-06-30

دولة النشر

الإمارات العربية المتحدة

عدد الصفحات

14

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

هناك حاجة حقيقية لتصنيف النصوص الكتابية بشكل ذاتي (أوتوماتيكي) مستعينين بالحاسوب في العديد من الحقول.

و يوجد اليوم العديد من الطرق المعتمدة في تصنيف النصوص الكتابية بمختلف اللغات الطبيعية.

و تقوم هذه الدراسة على طريقة TF-IDF لحساب أوزان المفردات المهمة التي تحويها الملفات النصية (Text Files) المطلوب تصنيفها, و أوزان المفردات التي يحويها كل صنف (Class).

و لقد تم اختبار الطرق الأربعة الخاصة بنموذج فضاء المتجهات (VSM) و هي : طرق جيب تمام (Cosine) و جاكارد (Jaccard) و الضرب الداخلي (Inner Product) و دايس (Dice), و تبين أن أفضلها هي طريقة الجيب تمام.

و من اشتملت المرحلة التالية على إجراء مقارنات ما بين طريقة الجيب تمام و طريقة البيسين (Naïve Bayesian) و الطريقة الإقليدية (Euclidean Measure), ليتبين لنا بأن طريقة البيسين (Naïve Bayesian) هي الأفضل.

لقد تم إجراء الاختبارات الخاصة بدقة هذه الطرق على ملفات نصية تضم الأحاديث النبوية الشريفة.

الملخص EN

The aim of this study is to find the optimal method that can be used to classify Arabic text among the six methods (inner product, cosine, Jaccard, Dice, Naïve Bayesian, and Euclidean).

Automatic text classification has been needed in many fields for a long time.

Many methods are used to classify text.

This study will investigate the use of TF-IDF to obtain document vector.

A document vector will be used to compute and compare four different associative coefficients of the vector space model (VSM) based on the inner product, cosine, Jaccard and Dice, in order to find the best for Arabic text classification.

We found that the cosine measure outperformed the other three associative coefficients of the VSM.

Finally we compare the efficiencies of the cosine measure, Naïve Bayesian, and Euclidean Measure to classify Arabic text.

Experimental results on the same set of Arabic documents used before show that Naïve Bayesian slightly outperforms the other methods.

Comparison reported in this paper shows that the Naïve Bayesian method surpasses the other five methods.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. 2007. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences،Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences Vol. 4, no. 2 (Jun. 2007), pp.13-26.
https://search.emarefa.net/detail/BIM-26140

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences. 2007. Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 24-26

رقم السجل

BIM-26140