استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل

العناوين الأخرى

Multi-label emotion classification for modern standard Arabic sentences using transfer learning

المؤلفون المشاركون

غنيم، ندى
الشريف، رهف
الدكاك، أميمة

المصدر

مجلة جامعة دمشق للعلوم الهندسية : مجلة علمية محكمة دورية

الناشر

جامعة دمشق

تاريخ النشر

2022-12-31

دولة النشر

سوريا

عدد الصفحات

12

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الملخص العربي

تهدف مهمة تصنيف المشاعر المتعددة الفئات إلى تحديد جميع المشاعر المحتملة في نص مكتوب يمثل الحالة العقلية للكاتب للحصول على أفضل أداء، كما تحاول فهم تعبيرات الشخص وعواطفه في النص، بما في ذلك مشاعر (الحزن، و الغضب، و الاشمئزاز، و المفاجأة، الخوف و الفرح ).

في السنوات الأخيرة، اجتذبت مشكلة تصنيف المشاعر المتعددة الفئات انتباه الباحثين لأهمية تطبيقاتها المحتملة في التعليم الإلكتروني و الرعاية الصحية و التسويق و ما إلى ذلك.

نظرا لوجود حاجة لطريقة قياسية لتطوير و تقييم أساليب تصنيف المشاعر المتعددة الفئات، من أجل توفير نموذج يتم تضمينه في تطبيقات تركيب الكلام على سبيل المثال؛ نركز في هذا البحث على مفهوم تحليل وتحديد المشاعر المستخرجة من الجمل المكتوبة باللغة العربية الفصحى والتي تم تنميطها إلى 11 فئة من المشاعر في النص و هي : (الغضب، الفرح، الحزن، المفاجأة، الاشمئزاز، الترقب، الحب، التشاؤم، الخوف، التفاؤل، الثقة).

اعتمدت هذه الدراسة على مجموعة بيانات مهمة لتصنيف المشاعر المتعددة الفئات و هي (2018-SemEval-2018 Task 1 : (AIT حيث تم جمع معظم النصوص المتعلقة باللغة العربية من وسائل التواصل الاجتماعي وغالبا ما كانت اللهجة المستخدمة هي اللهجة العامية.

و لما كان هدفنا تصنيف المشاعر باللغة الفصحى، فقد قمنا ببناء مدونة 1-MLArEC تحوي جملا عربية فصحى منمطة بالمشاعر (4381 جملة)، ثم قمنا بتوسعتها بنسخة 2-MLArEC (5645 جملة)، طبقنا طرقا قائمة على التعلم بالنقل(Transfer Learning اعتمادا على نماذج BERT للغة العربية مثل ( ,BERTBASE, ARBERT MABERT) على مجموعة البيانات المقترحة التي أعددناها.

و قد أجرينا مجموعة مكثفة من التجارب وحصلنا على أفضل النتائج باستخدام MABERT بحجم دفعة (Batch-Size تساوي 32 و10 عصور تدريب (Epochs) بمعدل Micro-F1 يساوي 0.94.

الملخص الإنجليزي

The multi-label emotion classification task aims to identify all possible emotions in a written text that best represent the person's mental state.

It tries to understand his expressions and emotions in the text, including feelings (sadness, anger, disgust, surprise, fear, joy,...).

Recently, multi-label emotion classification MLEC attracted the attention of researchers due to its potential applications in e-learning, healthcare, marketing, etc.

As we aim to integrate this system in a speech synthesis application, our work will be on Standard Arabic sentences.

We study 11 emotions, namely : (anger, joy, sadness, surprise, disgust, anticipation, love, pessimism, fear, optimism, confidence).

This work is based on SemEval-2018 dataset for the multi-label emotion classification task "Affect In Twitter" (AIT).

Most of this dataset (Arabic section) were collected from social media where dialect is used and since our goal is to classify emotions in MSA language, we built an MSA dataset annotated with emotion MLAREC-1 containing 4,381 sentences, then expanded it with a MLArEC-2 version having 5645 sentences.

We applied BERT-based Transfer Learning- method using Arabic pretrained models (BERTbase, ARBERT, MABERT) on our proposed dataset.

We conducted an extensive set of experiments and obtained the best results using MABERT with batch size equal to 32 and 10 training epochs and the Micro-F1 rating is 0.94.

نوع البيانات

أوراق مؤتمرات

رقم السجل

BIM-1529922

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

الشريف، رهف وغنيم، ندى والدكاك، أميمة. 2022-12-31. استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل. مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا). . مج. 38، ع. 4 (s+conf) (2022)، ص ص. 45-56.دمشق، سوريا : جامعة دمشق،.
https://search.emarefa.net/detail/BIM-1529922

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

الشريف، رهف....[و آخرون]. استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل. . دمشق، سوريا : جامعة دمشق،. 2022-12-31.
https://search.emarefa.net/detail/BIM-1529922

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

الشريف، رهف وغنيم، ندى والدكاك، أميمة. استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل. . مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا).
https://search.emarefa.net/detail/BIM-1529922