COTA 2.0 : an automatic corrector of Tunisian Arabic social media texts
المؤلفون المشاركون
Makki, Asma
Zribi, Inès
al-Lawzi, Maryam
Balghayth, Lamya Hadrich
المصدر
Jordanian Journal of Computetrs and Information Technology
العدد
المجلد 8، العدد 4 (31 ديسمبر/كانون الأول 2022)، ص ص. 370-387، 18ص.
الناشر
جامعة الأميرة سمية للتكنولوجيا
تاريخ النشر
2022-12-31
دولة النشر
الأردن
عدد الصفحات
18
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الملخص EN
In written text, orthographic noise is a common concern for NLP, especially when operating social-network comments and raw documents.
This is mainly due to its orthographic conventions and morphological ambiguity.
We propose to automatically normalize the social-media dialect corpora by following CODA-TA, the conventional Orthography for TA.
The existing system developed for TA «COTA Orthography 1.0» is not able to handle all forms of TA.
Therefore, we propose to extend its rules and lexicons to address the peculiarities of social media dialect.
In certain words, the COTA Orthography 1.0 system provides the user with several correction possibilities.
Therefore, in the new version, we incorporated a trigram language model to automatically select the right correction.
Our results show that the system can reduce transcription errors by 95.72%.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Makki, Asma& Zribi, Inès& al-Lawzi, Maryam& Balghayth, Lamya Hadrich. 2022. COTA 2.0 : an automatic corrector of Tunisian Arabic social media texts. Jordanian Journal of Computetrs and Information Technology،Vol. 8, no. 4, pp.370-387.
https://search.emarefa.net/detail/BIM-1435988
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Makki, Asma…[et al.]. COTA 2.0 : an automatic corrector of Tunisian Arabic social media texts. Jordanian Journal of Computetrs and Information Technology Vol. 8, no. 4 (Dec. 2022), pp.370-387.
https://search.emarefa.net/detail/BIM-1435988
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Makki, Asma& Zribi, Inès& al-Lawzi, Maryam& Balghayth, Lamya Hadrich. COTA 2.0 : an automatic corrector of Tunisian Arabic social media texts. Jordanian Journal of Computetrs and Information Technology. 2022. Vol. 8, no. 4, pp.370-387.
https://search.emarefa.net/detail/BIM-1435988
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 385-387
رقم السجل
BIM-1435988
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر