Modified decision tree classification algorithm for large data sets

العناوين الأخرى

خوارزمية تصنيف شجرة القرار المعدلة لمجموعات البيانات الكبيرة

المؤلفون المشاركون

Karim, Ihsan Ali
Duaymi, Mahdi kazzar

المصدر

Iraqi Journal of Science

العدد

المجلد 55، العدد 4A (31 ديسمبر/كانون الأول 2014)، ص ص. 1638-1645، 8ص.

الناشر

جامعة بغداد كلية العلوم

تاريخ النشر

2014-12-31

دولة النشر

العراق

عدد الصفحات

8

التخصصات الرئيسية

الرياضيات
تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

شجرة القرار هو أسلوب تصنيف هام في تصنيف و استخراج البيانات.

وقد أثبتت أشجار القرار أن تكون أدوات قيمة للتصنيف و الوصف، و تعميم البيانات.

و العمل على بناء أشجار قرار لمجموعات البيانات موجود في تخصصات متعددة مثل معالجة الإشارات و التعرف على الأنماط و نظرية القرار و الإحصاءات و التعلم الآلي و الشبكات العصبية الاصطناعية.

يتناول هذا البحث مشكلة العثور على إعدادات عامل متغير في خوارزمية شجرة القرارات من أجل بناء أشجار دقيقة، الصغيرة، و الحد من وقت التنفيذ لمجال معين.

التقنية المقترحة هي نموذج التعلم تحت الإشراف.

النهج المقترح يستخدم خوارزمية (C4.5) لبناء شجرة القرار.

التعديل على خوارزمية (C4.5)يشمل مرحلتين : المرحلة الأولى هي تفريد كل السمات المستمر بدلا من التعامل مع القيم العددية.

المرحلة الثانية تتم باستخدام (average gain measure) بدلا من (gain ratio measure) و الذي يستخدم في خوارزمية (C4.5) لاختيار أفضل سمة.

وقد تمت تجربة ذلك على ثلاث مجموعات من البيانات.

يتم اختيار كل تلك ملفات البيانات من (UCI) (University od California at Irvine) مستودع البيانات.

النتائج المتحصل عليها من التجارب تبين أن (C4.5 m) هي أفضل من (C4.5) في خفض العدد الإجمالي للعقد دون التأثير على الدقة ؛ و يتم في الوقت نفسه زيادة نسبة الدقة.

الملخص EN

A decision tree is an important classification technique in data mining classification.

Decision trees have proved to be valuable tools for the classification, description, and generalization of data.

Work on building decision trees for data sets exists in multiple disciplines such as signal processing, pattern recognition, decision theory, statistics, machine learning and artificial neural networks.

This research deals with the problem of finding the parameter settings of decision tree algorithm in order to build accurate, small trees, and to reduce execution time for a given domain.

The proposed approach (mC4.5) is a supervised learning model based on C4.5 algorithm to construct a decision tree.

The modification on C4.5 algorithm includes two phases : the first phase is discretization all continuous attributes instead of dealing with numerical values.

The second phase is using the average gain measure instead of gain ratio measure, to choose the best attribute.

It has been experimented on three data sets.

All those data files are picked up from the popular (UCI) University of California at Irvine data repository.

The results obtained from experiments show that (mC4.5) is better than C4.5 in decreasing the total number of nodes without affecting the accuracy ; at the same time increasing the accuracy ratio.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Karim, Ihsan Ali& Duaymi, Mahdi kazzar. 2014. Modified decision tree classification algorithm for large data sets. Iraqi Journal of Science،Vol. 55, no. 4A, pp.1638-1645.
https://search.emarefa.net/detail/BIM-516557

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Karim, Ihsan Ali& Duaymi, Mahdi kazzar. Modified decision tree classification algorithm for large data sets. Iraqi Journal of Science Vol. 55, no. 4A (2014), pp.1638-1645.
https://search.emarefa.net/detail/BIM-516557

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Karim, Ihsan Ali& Duaymi, Mahdi kazzar. Modified decision tree classification algorithm for large data sets. Iraqi Journal of Science. 2014. Vol. 55, no. 4A, pp.1638-1645.
https://search.emarefa.net/detail/BIM-516557

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 1645

رقم السجل

BIM-516557