استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل

Other Title(s)

Multi-label emotion classification for modern standard Arabic sentences using transfer learning

Joint Authors

غنيم، ندى
الشريف، رهف
الدكاك، أميمة

Source

مجلة جامعة دمشق للعلوم الهندسية : مجلة علمية محكمة دورية

Publisher

Damascus University

Publication Date

2022-12-31

Country of Publication

Syria

No. of Pages

12

Main Subjects

Information Technology and Computer Science

Arabic Abstract

تهدف مهمة تصنيف المشاعر المتعددة الفئات إلى تحديد جميع المشاعر المحتملة في نص مكتوب يمثل الحالة العقلية للكاتب للحصول على أفضل أداء، كما تحاول فهم تعبيرات الشخص وعواطفه في النص، بما في ذلك مشاعر (الحزن، و الغضب، و الاشمئزاز، و المفاجأة، الخوف و الفرح ).

في السنوات الأخيرة، اجتذبت مشكلة تصنيف المشاعر المتعددة الفئات انتباه الباحثين لأهمية تطبيقاتها المحتملة في التعليم الإلكتروني و الرعاية الصحية و التسويق و ما إلى ذلك.

نظرا لوجود حاجة لطريقة قياسية لتطوير و تقييم أساليب تصنيف المشاعر المتعددة الفئات، من أجل توفير نموذج يتم تضمينه في تطبيقات تركيب الكلام على سبيل المثال؛ نركز في هذا البحث على مفهوم تحليل وتحديد المشاعر المستخرجة من الجمل المكتوبة باللغة العربية الفصحى والتي تم تنميطها إلى 11 فئة من المشاعر في النص و هي : (الغضب، الفرح، الحزن، المفاجأة، الاشمئزاز، الترقب، الحب، التشاؤم، الخوف، التفاؤل، الثقة).

اعتمدت هذه الدراسة على مجموعة بيانات مهمة لتصنيف المشاعر المتعددة الفئات و هي (2018-SemEval-2018 Task 1 : (AIT حيث تم جمع معظم النصوص المتعلقة باللغة العربية من وسائل التواصل الاجتماعي وغالبا ما كانت اللهجة المستخدمة هي اللهجة العامية.

و لما كان هدفنا تصنيف المشاعر باللغة الفصحى، فقد قمنا ببناء مدونة 1-MLArEC تحوي جملا عربية فصحى منمطة بالمشاعر (4381 جملة)، ثم قمنا بتوسعتها بنسخة 2-MLArEC (5645 جملة)، طبقنا طرقا قائمة على التعلم بالنقل(Transfer Learning اعتمادا على نماذج BERT للغة العربية مثل ( ,BERTBASE, ARBERT MABERT) على مجموعة البيانات المقترحة التي أعددناها.

و قد أجرينا مجموعة مكثفة من التجارب وحصلنا على أفضل النتائج باستخدام MABERT بحجم دفعة (Batch-Size تساوي 32 و10 عصور تدريب (Epochs) بمعدل Micro-F1 يساوي 0.94.

English Abstract

The multi-label emotion classification task aims to identify all possible emotions in a written text that best represent the person's mental state.

It tries to understand his expressions and emotions in the text, including feelings (sadness, anger, disgust, surprise, fear, joy,...).

Recently, multi-label emotion classification MLEC attracted the attention of researchers due to its potential applications in e-learning, healthcare, marketing, etc.

As we aim to integrate this system in a speech synthesis application, our work will be on Standard Arabic sentences.

We study 11 emotions, namely : (anger, joy, sadness, surprise, disgust, anticipation, love, pessimism, fear, optimism, confidence).

This work is based on SemEval-2018 dataset for the multi-label emotion classification task "Affect In Twitter" (AIT).

Most of this dataset (Arabic section) were collected from social media where dialect is used and since our goal is to classify emotions in MSA language, we built an MSA dataset annotated with emotion MLAREC-1 containing 4,381 sentences, then expanded it with a MLArEC-2 version having 5645 sentences.

We applied BERT-based Transfer Learning- method using Arabic pretrained models (BERTbase, ARBERT, MABERT) on our proposed dataset.

We conducted an extensive set of experiments and obtained the best results using MABERT with batch size equal to 32 and 10 training epochs and the Micro-F1 rating is 0.94.

Data Type

Conference Papers

Record ID

BIM-1529922

American Psychological Association (APA)

الشريف، رهف وغنيم، ندى والدكاك، أميمة. 2022-12-31. استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل. مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا). . مج. 38، ع. 4 (s+conf) (2022)، ص ص. 45-56.دمشق، سوريا : جامعة دمشق،.
https://search.emarefa.net/detail/BIM-1529922

Modern Language Association (MLA)

الشريف، رهف....[و آخرون]. استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل. . دمشق، سوريا : جامعة دمشق،. 2022-12-31.
https://search.emarefa.net/detail/BIM-1529922

American Medical Association (AMA)

الشريف، رهف وغنيم، ندى والدكاك، أميمة. استخراج المشاعر المتعددة الفئات للجمل المكتوبة باللغة العربية الفصحى باستخدام طرق التعلم بالنقل. . مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا).
https://search.emarefa.net/detail/BIM-1529922