Development the dataset for automatic translation system

Other Title(s)

بناء جسم لغوي لنظام الترجمة الآلي

Author

Ghanim, Dahi Jabir

Source

Journal of Al-Azhar University Engineering Sector

Issue

Vol. 18, Issue 67 (30 Apr. 2023), pp.413-422, 10 p.

Publisher

al-Azhar University Faculty of Engineering

Publication Date

2023-04-30

Country of Publication

Egypt

No. of Pages

10

Main Subjects

Information Technology and Computer Science

Topics

Abstract AR

انتشرت أنظمة المراجعة التلقائية للنص المترجم على نطاق واسع في السنوات الأخيرة.

تم تطوير نظام المراجعة التلقائية للنص المترجم لتصحيح عدة أنواع من أخطاء النص المترجم التي ذكرها النموذج الأولي لـموسوب مثل الإملائية، والمطبعية، والنحوية، والدلالية، والكلامية، والشكلية.

يحتاج نظام المراجعة التلقائية للنص المترجم إلى كمية كبيرة من البيانات في أشكالها لعمل تدريب عليها.

هناك نقص في مجموعات البيانات الألمانية-العربية لأغراض الترجمة والمراجعة.

يعد إنشاء مجموعة البيانات الجزء الأكثر استهلاكا للوقت والأكثر أهمية في عملية ترجمة النص.

لقد قمنا ببذل جهدا لتحليل هذه الكمية الكبيرة من جمل البيانات والعمل عليها وتشكيل مجموعة البيانات النصية الحالية من نظام المراجعة التلقائية للنص المترجم، وتركز معظم الجهود على البيانات الألمانية والعربية.

على الرغم من زيادة عدد المستخدمين للغة العربية وزيادة المحتوى العربي على نظام المراجعة التلقائية للنص المترجم.

لذلك في هذه الورقة، تم بناء مجموعة البيانات الألمانية-العربية لاستخدامها في أغراض ترجمة النص.

يقدم هذا البحث مجموعة البيانات الألمانية العربية من تصنيف الأخطاء في نص ما بعد تصحيح الترجمة لنظام المراجعة التلقائية للنص المترجم.

تم جمع مجموعة البيانات الخاصة بنا من ملحمة لعبة العروش باللغتين الألمانية والعربية وتتكون مجموعة البيانات الخاصة بنا من 65000 جملة ثنائية اللغة تم جمعها من النص.

كانت أهم نتائج هذا البحث هي عجز النموذج الأولي لـموسوب لشرح جميع الأخطاء؛ وكان يجب أن يكون النموذج الأولي طويلا ليشمل الاتساق.

قمنا بتقييم صحة مجموعة البيانات الخاصة بالترجمة الألية والتدقيق بواسطة الخبراء البشريين.

استخدمنا أداة Rapid Miner لتقييم أداء مجموعة البيانات الخاصة بنا وكانت دقة مجموعة البيانات 95.12٪.

Abstract EN

The automatic translation systems (ATS) for translation text have extent widely in recent years.

the ARS developed to correct several types of text errors explained by the Mossop's prototype such as spelling, typographical, syntactic, semantic, word, and formal ones.

the ARS need a large amount of data training in its forms.

there is a shortage in German-Arabic datasets for translation and revision purposes.

building dataset is the most time-consuming and the most important part of the text translation process.

we make an effort to analyze and work on this large amount of data sentences, and the form of text free dataset on the ARS, most efforts focus on German and Arabic data.

despite the increase in the number of Arabic, users and the increase in Arabic content on ARS.

therefore, in this paper, Arabic dataset built to use in text translation purpose.

this research offers the German-Arabic dataset from the taxonomy of errors in post-editing text for growth the ARS.

our dataset gathered from a game of throne saga in German (GR) and Arabic (Ar) saga.

our dataset consists of 65,000 bilingual sentences collected from text.

the most significant penalties of this research were the Mossop's prototype terminates to explain all errors; and the prototype had to be lengthy in demand to include the consistency.

finally, human evaluators were employed to grade the quality of ATS outputs and to revision them.

we used a rapid miner tool to evaluate the performance of our dataset, the dataset accuracy of 95.12%.

American Psychological Association (APA)

Ghanim, Dahi Jabir. 2023. Development the dataset for automatic translation system. Journal of Al-Azhar University Engineering Sector،Vol. 18, no. 67, pp.413-422.
https://search.emarefa.net/detail/BIM-1519820

Modern Language Association (MLA)

Ghanim, Dahi Jabir. Development the dataset for automatic translation system. Journal of Al-Azhar University Engineering Sector Vol. 18, no. 67 (Apr. 2023), pp.413-422.
https://search.emarefa.net/detail/BIM-1519820

American Medical Association (AMA)

Ghanim, Dahi Jabir. Development the dataset for automatic translation system. Journal of Al-Azhar University Engineering Sector. 2023. Vol. 18, no. 67, pp.413-422.
https://search.emarefa.net/detail/BIM-1519820

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references: p. 421-422

Record ID

BIM-1519820