Toward an Arabic essay grading benchmark for machine learning

Other Title(s)

بناء معيار لتصحيح الأسئلة المقالية في اللغة العربية لتعلم الآلة

Dissertant

al-Ziyadat, Rawan Abd al-Halim

Thesis advisor

al-Sharbatji, Bassam

University

Middle East University

Faculty

Faculty of Information Technology

Department

Computer Science Department

University Country

Jordan

Degree

Master

Degree Date

2020

Arabic Abstract

بعد التصحيح التلقائي للأسئلة المقالية أداة، حيوية، لأنه يوفر الكثير من المزايا مثل الحصول على العلامة دون تحيز بشري و جهد سريع و آمن في الوقت الحاضر، أصبحت غالبية أنظمة التصحيح التلقائي للاسئلة تعتمد على الذكاء الاصطناعي مثل التعلم الآلي.

و نتيجة لذلك، معظم أنظمة التصحيح التلقائي تعتمد حاليا على التعلم الآلي للتصحيح التلقائي للأسئلة المقالية، حيث يتم تصحيح الاسئلة اعتمادا على مجموعة من الاجابات النموذجية معدة مسبقا لاستخدامها في التدريب و التحقق من صحتها.

بالنسبة لمقالات اللغة الإنجليزية، توجد مجموعة بيانات ASAP لتصنيف المقالات باستخدام التعلم الألي و لكن لا توجد مجموعات بيانات للتصحيح التلقائي للأسئلة المقالية لتعلم الآلة.

لذلك، هذه الرسالة هي محاولة لجمع وإنشاء مجموعة بيانات لتصحيح الأسئلة المقالية لتعلم الآلة.

تحتوي هذه الرسالة على مجموعة البيانات المعتمدة على الاسئلة المقالية مع إجابات نموذجية متدرجة لمواضيع مختلفة و لمستويات مختلفة.

تم اختبار وتقييم مجموعة البيانات التي تم جمعها باستخدام خوارزميات التصنيف الأكثر شهرة لتصحيح الاسئلة المقالية تلقائيا باللغة العربية مثل decision tree Native Bayes، .(classifier) تظهر النتيجة التجريبية أن مجموعة البيانات مناسبة لخوارزميات التعلم الآلي، حيث تظهر نتائج دقة الخوارزميات على مجموعة البيانات كالتالي 79% و81 و 86% meta.

English Abstract

Using Automatic Essay Grading (AEG) is seen as a vital tool, as it provides a lot of advantages like getting the marks without human bias, quick and safe effort.

Nowadays, the majority of grading systems have become dependent on artificial intelligence such as machine learning.

As a result, most of AEG systems utilized machine learning to grade essays based on prepared dataset for training and validation.

For the English essays there is an Automated Student Assessment Prize (ASAP) dataset for grading essays using machine learning but there are no Arabic essays grading datasets for machine learning.

Therefore, this thesis is an attempt to collect and establish a dataset for Arabic essay grading for machine learning.

In this thesis, the established dataset or benchmark contains essay questions with their graded model answers for a various topic across most all different school levels.

The collected dataset was tested and evaluated using the best-known classification algorithms such as Naive Bayes, decision tree, and meta classifier.

The experimental result shows that dataset is suitable for the machine learning algorithms, where the classifiers performance results shows a 79%, 81%, 86% as accuracy based on established dataset.

Main Subjects

Information Technology and Computer Science
Arabic language and Literature

Topics

No. of Pages

58

Table of Contents

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Background and literature review.

Chapter Three : Methodology and the proposed model.

Chapter Four : Implementation and evaluation results.

Chapter Five : Conclusion and future work.

References.

American Psychological Association (APA)

al-Ziyadat, Rawan Abd al-Halim. (2020). Toward an Arabic essay grading benchmark for machine learning. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-970877

Modern Language Association (MLA)

al-Ziyadat, Rawan Abd al-Halim. Toward an Arabic essay grading benchmark for machine learning. (Master's theses Theses and Dissertations Master). Middle East University. (2020).
https://search.emarefa.net/detail/BIM-970877

American Medical Association (AMA)

al-Ziyadat, Rawan Abd al-Halim. (2020). Toward an Arabic essay grading benchmark for machine learning. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-970877

Language

English

Data Type

Arab Theses

Record ID

BIM-970877