Issues of dialectal Saudi Twitter corpus

المؤلف

al-Ruwayli, Mushrif

المصدر

The International Arab Journal of Information Technology

العدد

المجلد 17، العدد 3 (31 مايو/أيار 2020)، ص ص. 367-374، 8ص.

الناشر

جامعة الزرقاء عمادة البحث العلمي

تاريخ النشر

2020-05-31

دولة النشر

الأردن

عدد الصفحات

8

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الملخص EN

Text mining research relies heavily on the availability of a suitable corpus.

This paper presents a dialectal Saudi corpus that contains 207452 tweets generated by Saudi Twitter users.

In addition, a comparison between the Saudi tweets dataset, Egyptian Twitter corpus and Arabic top news raw corpus (representing Modern Standard Arabic (MSA) in various aspects, such as the differences between formal and colloquial texts was carried out.

Moreover, investigation into the issues and phenomena, such as shortening, concatenation, colloquial language, compounding, foreign language, spelling errors and neologisms on this type of dataset was performed.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Ruwayli, Mushrif. 2020. Issues of dialectal Saudi Twitter corpus. The International Arab Journal of Information Technology،Vol. 17, no. 3, pp.367-374.
https://search.emarefa.net/detail/BIM-962349

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Ruwayli, Mushrif. Issues of dialectal Saudi Twitter corpus. The International Arab Journal of Information Technology Vol. 17, no. 3 (May. 2020), pp.367-374.
https://search.emarefa.net/detail/BIM-962349

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Ruwayli, Mushrif. Issues of dialectal Saudi Twitter corpus. The International Arab Journal of Information Technology. 2020. Vol. 17, no. 3, pp.367-374.
https://search.emarefa.net/detail/BIM-962349

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 373-374

رقم السجل

BIM-962349