Experimenting N-grams in text categorization
المؤلفون المشاركون
Rahmun, Abd al-Latif
al-Berrichi, Zakariyya
المصدر
The International Arab Journal of Information Technology
العدد
المجلد 4، العدد 4 (31 أكتوبر/تشرين الأول 2007)، ص ص. 377-385، 9ص.
الناشر
تاريخ النشر
2007-10-31
دولة النشر
الأردن
عدد الصفحات
9
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
الملخص EN
This paper deals with automatic supervised classification of documents.
The approach suggested is based on a vector representation of the documents centered not on the words but on the n-grams of characters for varying n.
The effects of this method are examined in several experiments using the multivariate chi-square to reduce the dimensionality, the cosine and Callback and Libeler distances, and two benchmark corpuses the routers-21578 newswire articles and the 20 newsgroups data for evaluation.
The evaluation was done, by using the macro averaged F1 function.
The results show the effectiveness of this approach compared to the Bag-Of-Word and stem representations.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Rahmun, Abd al-Latif& al-Berrichi, Zakariyya. 2007. Experimenting N-grams in text categorization. The International Arab Journal of Information Technology،Vol. 4, no. 4, pp.377-385.
https://search.emarefa.net/detail/BIM-11745
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Rahmun, Abd al-Latif& al-Berrichi, Zakariyya. Experimenting N-grams in text categorization. The International Arab Journal of Information Technology Vol. 4, no. 4 (Oct. 2007), pp.377-385.
https://search.emarefa.net/detail/BIM-11745
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Rahmun, Abd al-Latif& al-Berrichi, Zakariyya. Experimenting N-grams in text categorization. The International Arab Journal of Information Technology. 2007. Vol. 4, no. 4, pp.377-385.
https://search.emarefa.net/detail/BIM-11745
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 384
رقم السجل
BIM-11745
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر