Experimenting N-grams in text categorization

المؤلفون المشاركون

Rahmun, Abd al-Latif
al-Berrichi, Zakariyya

المصدر

The International Arab Journal of Information Technology

العدد

المجلد 4، العدد 4 (31 أكتوبر/تشرين الأول 2007)، ص ص. 377-385، 9ص.

الناشر

جامعة الزرقاء

تاريخ النشر

2007-10-31

دولة النشر

الأردن

عدد الصفحات

9

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص EN

This paper deals with automatic supervised classification of documents.

The approach suggested is based on a vector representation of the documents centered not on the words but on the n-grams of characters for varying n.

The effects of this method are examined in several experiments using the multivariate chi-square to reduce the dimensionality, the cosine and Callback and Libeler distances, and two benchmark corpuses the routers-21578 newswire articles and the 20 newsgroups data for evaluation.

The evaluation was done, by using the macro averaged F1 function.

The results show the effectiveness of this approach compared to the Bag-Of-Word and stem representations.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Rahmun, Abd al-Latif& al-Berrichi, Zakariyya. 2007. Experimenting N-grams in text categorization. The International Arab Journal of Information Technology،Vol. 4, no. 4, pp.377-385.
https://search.emarefa.net/detail/BIM-11745

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Rahmun, Abd al-Latif& al-Berrichi, Zakariyya. Experimenting N-grams in text categorization. The International Arab Journal of Information Technology Vol. 4, no. 4 (Oct. 2007), pp.377-385.
https://search.emarefa.net/detail/BIM-11745

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Rahmun, Abd al-Latif& al-Berrichi, Zakariyya. Experimenting N-grams in text categorization. The International Arab Journal of Information Technology. 2007. Vol. 4, no. 4, pp.377-385.
https://search.emarefa.net/detail/BIM-11745

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 384

رقم السجل

BIM-11745