نظام ترجمة آلية باستخدام تقنيات التعلم العميق للأسئلة المفتوحة الباحثة عن المعلومات

العناوين الأخرى

Machine translation systems using deep learning techniques of open information-seeking questions

المؤلفون المشاركون

الصافي، وسيم
الكردي، بسام محمد
النجار، رهف السمعو

المصدر

مجلة جامعة دمشق للعلوم الهندسية : مجلة علمية محكمة دورية

الناشر

جامعة دمشق

تاريخ النشر

2022-12-31

دولة النشر

سوريا

عدد الصفحات

11

التخصصات الرئيسية

تكنولوجيا التعليم

الملخص العربي

تفترض نظم الإجابة على الأسئلة متعددة اللغات أن الأجوبة عادة موجودة بنفس لغة السؤال، ولكن الواقع العملي يظهر أن العديد من الأسئلة قد لا يوجد لها إجابات في وثائق اللغة نفسها خاصة عندما تبحث بمفاهيم من ثقافات أخرى.

يبحث هذا العمل في تأثير الترجمة الآلية على إيجاد الإجابات للأسئلة المفتوحة الباحثة عن المعلومات (information-seeking)، و التي لا يوجد لها إجابات في وثائق اللغة الهدف حيث السؤال بالعربية وتتم ترجمته للإنكليزية ثم يتم استرجاع المقاطع الإنكليزية الحاوية على الإجابة من المصادر الإنكليزية.

تم تطوير بنيتين لترجمة الأسئلة باستخدام شبكة تعلم عميقة هي المحول (Transformer) حيث تم البدء بنماذج مسبقة التدريب لأغراض عامة ثم صقل (Fine-tune) النموذج الأول عبر مجموعة بيانات متوازية عالية الدقة تضم تفسير القرآن، وصقل النموذج الثاني عبر مجموعة بيانات متوازية لأسئلة مفتوحة باحثة عن المعلومات.

تم اعتماد التوجه بإبقاء كلمات التوقف واشارات الترقيم في المعالجة المسبقة.

و ثم تم استخدامها لإيجاد إجابات عبر نظام إجابة على الأسئلة المفتوحة عابر للغات (Cross-lingual Open Retrieval Question Answering (XOR QA لاختبار تأثير الترجمة الآلية العصبونية للنماذج المولدة.

تشير النتائج التجريبية إلى أن النموذج الأول تمكن من ترجمة الأسئلة في مجال محدد فقط، و نجح النموذج الثاني بتقديم ترجمة مرضية تضاهي جودة الترجمة البشرية ضمن جميع مجالات الأسئلة برغم الكلفة المنخفضة لتوليد النماذج والذي قاد للحصول على أعلى دقة للمقاطع المستردة بين جميع الأنظمة البحثية المشابهة.

الكلمات المفتاحية : الترجمة الآلية العصبونية، نظام الإجابة على الأسئلة متعدد اللغات، المحول (Transformer) صقل النموذج (Fine-tune)، الأسئلة الباحثة عن معلومات (Information-Seeking)، مجموعة البيانات المتوازية (Parallel Corpora)، الأسئلة المفتوحة، الترميز (Tokenization)

الملخص الإنجليزي

Multilingual question-answering tasks typically assume that answers exist in the same language as the question.

Yet in practice, many questions may not have answers in the same language documents, especially where questions reference concepts from other cultures.

This research study the effects of machine translation on finding answers to open information seeking questions that could not find same-language answers for, by translating these questions to English then retrieving the English passages that contain answers from English recourses.

We Developed two machine translation state-of-the-art using Deep Learning (Transformer).

We started with a pretrained model for general purpose then we fine-tuned the first model on a high quality corpus that includes the interpretation of the Qur'an, And the second model is fine-tuned on an open information-seeking parallel corpus.

We kept stopping words and punctuation marks in preprocessing.

Then we used these models to find answers using Cross-lingual Open Retrieval Question Answering (XOR QA) to examine the effect of the produced neural machine translation systems.

Experimental results suggest that the first model was able to translate questions in a specific field only, and the second model succeeded in providing a satisfying translation comparable to the quality of human translation within all areas of the questions despite the low cost of model generation, which leads to get the highest accuracy of passage retrieving among all comparable research systems.

نوع البيانات

أوراق مؤتمرات

رقم السجل

BIM-1529973

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

النجار، رهف السمعو والكردي، بسام محمد والصافي، وسيم. 2022-12-31. نظام ترجمة آلية باستخدام تقنيات التعلم العميق للأسئلة المفتوحة الباحثة عن المعلومات. مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا). . مج. 38، ع. 4 (s+conf) (2022)، ص ص. 169-179.دمشق، سوريا : جامعة دمشق،.
https://search.emarefa.net/detail/BIM-1529973

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

النجار، رهف السمعو....[و آخرون]. نظام ترجمة آلية باستخدام تقنيات التعلم العميق للأسئلة المفتوحة الباحثة عن المعلومات. . دمشق، سوريا : جامعة دمشق،. 2022-12-31.
https://search.emarefa.net/detail/BIM-1529973

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

النجار، رهف السمعو والكردي، بسام محمد والصافي، وسيم. نظام ترجمة آلية باستخدام تقنيات التعلم العميق للأسئلة المفتوحة الباحثة عن المعلومات. . مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا).
https://search.emarefa.net/detail/BIM-1529973