Multi-lingual language variety identification using conventional deep learning and transfer learning approaches
المؤلفون المشاركون
Hamid, Samih Nurin
Ashraf, Muhammad Adnan
Ya Nan, Qiao
المصدر
The International Arab Journal of Information Technology
العدد
المجلد 19، العدد 5 (30 سبتمبر/أيلول 2022)، ص ص. 705-712، 8ص.
الناشر
جامعة الزرقاء عمادة البحث العلمي
تاريخ النشر
2022-09-30
دولة النشر
الأردن
عدد الصفحات
8
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الملخص EN
Language variety identification tends to identify lexical and semantic variations in different varieties of a single language.
Language variety identification helps build the linguistic profile of an author from written text which can be used for cyber forensics and marketing purposes.
Investigating previous efforts for language variety identification, we hardly find any study that experiments with transfer learning approaches and/or performs a thorough comparison of different deep learning approaches on a range of benchmark datasets.
So, to bridge this gap, we propose transfer learning approaches for language variety identification tasks and perform an extensive comparison of them with deep learning approaches on multiple varieties of four widely spoken languages, i.e., Arabic, English, Portuguese, and Spanish.
This research has treated this task as a binary classification problem (Portuguese) and multi-class classification problem (Arabic, English, and Spanish).
We applied two transfer learning Bidirectional Encoder Representations from Transformers (BERT), Universal Language Model Fine-tuning (ULMFiT), three deep learning-Convolutional Neural Networks (CNN), Bidirectional Long Short Term Memory (Bi-LSTM), Gated Recurrent Units (GRU), and an ensemble approach for identifying different varieties.
A thorough comparison between the approaches suggests that the transfer learning based ULMFiT model outperforms all other approaches and produces the best accuracy results for binary and multi-class language variety identification tasks.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Hamid, Samih Nurin& Ashraf, Muhammad Adnan& Ya Nan, Qiao. 2022. Multi-lingual language variety identification using conventional deep learning and transfer learning approaches. The International Arab Journal of Information Technology،Vol. 19, no. 5, pp.705-712.
https://search.emarefa.net/detail/BIM-1437072
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Hamid, Samih Nurin…[et al.]. Multi-lingual language variety identification using conventional deep learning and transfer learning approaches. The International Arab Journal of Information Technology Vol. 19, no. 5 (Sep. 2022), pp.705-712.
https://search.emarefa.net/detail/BIM-1437072
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Hamid, Samih Nurin& Ashraf, Muhammad Adnan& Ya Nan, Qiao. Multi-lingual language variety identification using conventional deep learning and transfer learning approaches. The International Arab Journal of Information Technology. 2022. Vol. 19, no. 5, pp.705-712.
https://search.emarefa.net/detail/BIM-1437072
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 710-712
رقم السجل
BIM-1437072
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر