![](/images/graphics-bg.png)
A comparative study of the efficiency of different measures to classify arabic text
المؤلفون المشاركون
al-Kabi, Muhammad Naji
al-Sinjilawi, Saja I.
المصدر
University of Sharjah Journal of Pure and Applied Sciences
العدد
المجلد 4، العدد 2 (30 يونيو/حزيران 2007)، ص ص. 13-26، 14ص.
الناشر
تاريخ النشر
2007-06-30
دولة النشر
الإمارات العربية المتحدة
عدد الصفحات
14
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
الملخص AR
هناك حاجة حقيقية لتصنيف النصوص الكتابية بشكل ذاتي (أوتوماتيكي) مستعينين بالحاسوب في العديد من الحقول.
و يوجد اليوم العديد من الطرق المعتمدة في تصنيف النصوص الكتابية بمختلف اللغات الطبيعية.
و تقوم هذه الدراسة على طريقة TF-IDF لحساب أوزان المفردات المهمة التي تحويها الملفات النصية (Text Files) المطلوب تصنيفها, و أوزان المفردات التي يحويها كل صنف (Class).
و لقد تم اختبار الطرق الأربعة الخاصة بنموذج فضاء المتجهات (VSM) و هي : طرق جيب تمام (Cosine) و جاكارد (Jaccard) و الضرب الداخلي (Inner Product) و دايس (Dice), و تبين أن أفضلها هي طريقة الجيب تمام.
و من اشتملت المرحلة التالية على إجراء مقارنات ما بين طريقة الجيب تمام و طريقة البيسين (Naïve Bayesian) و الطريقة الإقليدية (Euclidean Measure), ليتبين لنا بأن طريقة البيسين (Naïve Bayesian) هي الأفضل.
لقد تم إجراء الاختبارات الخاصة بدقة هذه الطرق على ملفات نصية تضم الأحاديث النبوية الشريفة.
الملخص EN
The aim of this study is to find the optimal method that can be used to classify Arabic text among the six methods (inner product, cosine, Jaccard, Dice, Naïve Bayesian, and Euclidean).
Automatic text classification has been needed in many fields for a long time.
Many methods are used to classify text.
This study will investigate the use of TF-IDF to obtain document vector.
A document vector will be used to compute and compare four different associative coefficients of the vector space model (VSM) based on the inner product, cosine, Jaccard and Dice, in order to find the best for Arabic text classification.
We found that the cosine measure outperformed the other three associative coefficients of the VSM.
Finally we compare the efficiencies of the cosine measure, Naïve Bayesian, and Euclidean Measure to classify Arabic text.
Experimental results on the same set of Arabic documents used before show that Naïve Bayesian slightly outperforms the other methods.
Comparison reported in this paper shows that the Naïve Bayesian method surpasses the other five methods.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. 2007. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences،Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences Vol. 4, no. 2 (Jun. 2007), pp.13-26.
https://search.emarefa.net/detail/BIM-26140
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
al-Kabi, Muhammad Naji& al-Sinjilawi, Saja I.. A comparative study of the efficiency of different measures to classify arabic text. University of Sharjah Journal of Pure and Applied Sciences. 2007. Vol. 4, no. 2, pp.13-26.
https://search.emarefa.net/detail/BIM-26140
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 24-26
رقم السجل
BIM-26140
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
![](/images/ebook-kashef.png)
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر
![](/images/kashef-image.png)