Modified decision tree classification algorithm for large data sets

Other Title(s)

خوارزمية تصنيف شجرة القرار المعدلة لمجموعات البيانات الكبيرة

Joint Authors

Karim, Ihsan Ali
Duaymi, Mahdi kazzar

Source

Iraqi Journal of Science

Issue

Vol. 55, Issue 4A (31 Dec. 2014), pp.1638-1645, 8 p.

Publisher

University of Baghdad College of Science

Publication Date

2014-12-31

Country of Publication

Iraq

No. of Pages

8

Main Subjects

Mathematics
Information Technology and Computer Science

Topics

Abstract AR

شجرة القرار هو أسلوب تصنيف هام في تصنيف و استخراج البيانات.

وقد أثبتت أشجار القرار أن تكون أدوات قيمة للتصنيف و الوصف، و تعميم البيانات.

و العمل على بناء أشجار قرار لمجموعات البيانات موجود في تخصصات متعددة مثل معالجة الإشارات و التعرف على الأنماط و نظرية القرار و الإحصاءات و التعلم الآلي و الشبكات العصبية الاصطناعية.

يتناول هذا البحث مشكلة العثور على إعدادات عامل متغير في خوارزمية شجرة القرارات من أجل بناء أشجار دقيقة، الصغيرة، و الحد من وقت التنفيذ لمجال معين.

التقنية المقترحة هي نموذج التعلم تحت الإشراف.

النهج المقترح يستخدم خوارزمية (C4.5) لبناء شجرة القرار.

التعديل على خوارزمية (C4.5)يشمل مرحلتين : المرحلة الأولى هي تفريد كل السمات المستمر بدلا من التعامل مع القيم العددية.

المرحلة الثانية تتم باستخدام (average gain measure) بدلا من (gain ratio measure) و الذي يستخدم في خوارزمية (C4.5) لاختيار أفضل سمة.

وقد تمت تجربة ذلك على ثلاث مجموعات من البيانات.

يتم اختيار كل تلك ملفات البيانات من (UCI) (University od California at Irvine) مستودع البيانات.

النتائج المتحصل عليها من التجارب تبين أن (C4.5 m) هي أفضل من (C4.5) في خفض العدد الإجمالي للعقد دون التأثير على الدقة ؛ و يتم في الوقت نفسه زيادة نسبة الدقة.

Abstract EN

A decision tree is an important classification technique in data mining classification.

Decision trees have proved to be valuable tools for the classification, description, and generalization of data.

Work on building decision trees for data sets exists in multiple disciplines such as signal processing, pattern recognition, decision theory, statistics, machine learning and artificial neural networks.

This research deals with the problem of finding the parameter settings of decision tree algorithm in order to build accurate, small trees, and to reduce execution time for a given domain.

The proposed approach (mC4.5) is a supervised learning model based on C4.5 algorithm to construct a decision tree.

The modification on C4.5 algorithm includes two phases : the first phase is discretization all continuous attributes instead of dealing with numerical values.

The second phase is using the average gain measure instead of gain ratio measure, to choose the best attribute.

It has been experimented on three data sets.

All those data files are picked up from the popular (UCI) University of California at Irvine data repository.

The results obtained from experiments show that (mC4.5) is better than C4.5 in decreasing the total number of nodes without affecting the accuracy ; at the same time increasing the accuracy ratio.

American Psychological Association (APA)

Karim, Ihsan Ali& Duaymi, Mahdi kazzar. 2014. Modified decision tree classification algorithm for large data sets. Iraqi Journal of Science،Vol. 55, no. 4A, pp.1638-1645.
https://search.emarefa.net/detail/BIM-516557

Modern Language Association (MLA)

Karim, Ihsan Ali& Duaymi, Mahdi kazzar. Modified decision tree classification algorithm for large data sets. Iraqi Journal of Science Vol. 55, no. 4A (2014), pp.1638-1645.
https://search.emarefa.net/detail/BIM-516557

American Medical Association (AMA)

Karim, Ihsan Ali& Duaymi, Mahdi kazzar. Modified decision tree classification algorithm for large data sets. Iraqi Journal of Science. 2014. Vol. 55, no. 4A, pp.1638-1645.
https://search.emarefa.net/detail/BIM-516557

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 1645

Record ID

BIM-516557