A Hadoop MapReduce Implementation of C5.0 decision tree algorithm

العناوين الأخرى

إنشاء و تطبيق خوارزمية شجرة القرارات "C5.0" باستخدام "Hadoop MapReduce"

مقدم أطروحة جامعية

Abu Labbad, Mamun Fawwaz.

مشرف أطروحة جامعية

al-Sharbatji, Bassam

الجامعة

جامعة الشرق الأوسط

الكلية

كلية تكنولوجيا المعلومات

القسم الأكاديمي

قسم علم الحاسوب

دولة الجامعة

الأردن

الدرجة العلمية

ماجستير

تاريخ الدرجة العلمية

2020

الملخص العربي

في الآونة الأخيرة، يهتم المجتمع العلمي بكيفية زيادة دقة و أداء طرق التصنيف المختلفة، حيث تم تحقيق إنجازات كبيرة في هذا المجال حتى الآن إلى جانب هذه التحديات، فإن الكمية المتزايدة من البيانات التي يتم إنشاؤها كل يوم تبرز المزيد من التحديات التي يجب التغلب عليها، و التي تظهر تحديات لخوارزميات شجرة القرار التقليدية.

منها، نظراً لأن حجم مجموعة البيانات يصبح كبيرا للغاية، فإن عملية بناء شجرة قرارات يمكن أن يتم احتسابها في غضون فترة زمنية غير مقبولة على جهاز كمبيوتر واحد و هي عملية صعبة للغاية و تستغرق وقتاً طويلاً لأنه لا يمكن الاحتفاظ بمجموعة بيانات بأكملها أو معظمها في الذاكرة على جهاز كمبيوتر واحد.

لذالك يجب نقل بعض العمليات الحسابية إلى اجهزة التخزين الخارجي و بالتالي زيادة تكلفة الإدخال / الإخراج و لتحقيق هذه الغاية، يقترح الباحث في هذه الرسالة تنفيذ خوارزمية شجرة قرار C5.0باستخدام Hadoop MapReduce في هذه الرسالة، يقوم الباحث بتحويل الخوارزمية التقليدية إلى سلسلة من الخطوات و الاجراءات و كما يقوم ببناء بعض هياكل البيانات لتقليل تكلفة الاتصال.

و يجري الباحث أيضا تجارب عديدة على مجموعة بيانات ضخمة التي تشير النتائج إلى أن خوارزمية المستخدمة لدى الباحث تتميز بتوفير الوقت و قابلية التوسع في البيئة الموازية.

الملخص الإنجليزي

Recently, many of the research institutes have been involving in boosting the accuracy and efficiency of different classification techniques.

To date, a lot of enhancement efforts are spent in order to boost such techniques.

In addition, the growing volume of data produced daily raises more issues that need to be resolved, which presents risks to the standard Decision Tree (DT) algorithms.

Likewise, the process of generation DT is complicated and is time-consuming to complete the computation on one machine when the size of the datasets becomes big, and as the data can not keep the whole training dataset or most of it in memory on one machine.

Some computations are transferred to the additional storage, which will lead to increasing the cost of input or output.

In this thesis, the researcher will implement a standard DT algorithm C5.0 using Hadoop MapReduce and will compare the error-rate, leaf nodes, and rules with C4.5.

The procedure used in this thesis is to transform the standard algorithm into steps of Map and reduce.

In addition to implementing data structures to reduce the cost of communication and to proceed with comprehensive experiments on a vast dataset.

The results of the study revealed that the MapReduce C5.0 tree is a fixed memory issue to enhance the execution time of the algorithm, and it is suitable for enormous data.

The algorithm is characterized by being expandable in the cluster environment and is also characterized by time efficiency.

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

عدد الصفحات

36

قائمة المحتويات

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Theoretical background and related works.

Chapter Three : Methodology and the proposed approach.

Chapter Four : Experimental design and results.

Chapter Five : Conclusion and future work.

References.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Abu Labbad, Mamun Fawwaz.. (2020). A Hadoop MapReduce Implementation of C5.0 decision tree algorithm. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-970873

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Abu Labbad, Mamun Fawwaz.. A Hadoop MapReduce Implementation of C5.0 decision tree algorithm. (Master's theses Theses and Dissertations Master). Middle East University. (2020).
https://search.emarefa.net/detail/BIM-970873

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Abu Labbad, Mamun Fawwaz.. (2020). A Hadoop MapReduce Implementation of C5.0 decision tree algorithm. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-970873

لغة النص

الإنجليزية

نوع البيانات

رسائل جامعية

رقم السجل

BIM-970873