A feature selection method for data mining tasks using hybrid sine cosine algorithm with genetic algorithm

Other Title(s)

طريقة تحديد الميزات لمهام التنقيب عن البيانات باستخدام تهجين خوارزمية الجيب-جيب التمام مع الخوارزمية الجينية

Dissertant

Dulaymi, Akram Jamal Ali

Thesis advisor

Abu Ullayqah, Layth Muhammad

University

Amman Arab University

Faculty

Collage of Computer Sciences and Informatics

Department

Department of Computer Science

University Country

Jordan

Degree

Master

Degree Date

2019

Arabic Abstract

تعتبر مشاكل اختيار الميزات من المشاكل العالمية الحقيقية.

كما تعد تقنية اختيار الميزات أحد الحلول التي يتم استخدامها لإنشاء طرق تنبؤيه تقلل من أخطاء التنبؤ في المصنفات من خلال تحديد ميزات مهمة عن طريق تجاهل الميزات المكررة وغير الملائمة و ليست ذات علاقة في مجموعة البيانات الأصلية.

لذلك تعد طرق اختيار الميزات مهمة و ضرورية لمعالجة مشاكل التصنيف و تقليل حجم الميزات الكبير جدا.

و لهذا السبب و من أجل حل مشاكل اختيار الميزات، لقد تم اقتراح طريقة جديدة لاختيار الميزات تستند إلى تحسين خوارزمية الجيب - جيب التمام عن طريق تهجينها مع الخوارزمية الجينية حيث ان هذه الخوارزميات الارشادية تستند الى معيارين استراتيجيين هما الاستكشاف خلال مساحة البحث و الاستغلال الذي يقوم بتحديد الحل الأمثل.

حيث تم ملاحظة ضعف في استراتيجية الاستكشاف الخوارزمية الجيب - جيب التمام فتم الشروع في تحسين هذا الضعف بحيث يؤدي هذا التحسين إلى الحصول على أداء أفضل للخوارزمية من خلال الموازنة بین استراتيجية الاستكشاف و استراتيجية الاستغلال كما و تم اخضاع هذه الطريقة الجديدة الي معايير التقييم قدرتها على حل مشاكل تحديد الميزات و كانت النتائج ممتازة حيث تم الحصول على دقة عالية في التصنيف مع اقل عدد من الميزات في نتائج الطريقة المقترحة من خلال المقارنة بين الطريقة المقترحة و خوارزمية الجيب - جيب التمام الاصلية و كذلك مقارنة الطريقة المقترحة مع طرق أخرى ذات علاقة تم نشرها سابقا وهذا يدل على ان الطريقة المقترحة هي الأفضل خلال جميع البيانات التي تم استخدامها و التي تم جمعها من مستودع القواعد البيانات تابع الى جامعة كاليفورنيا الاميركية.

English Abstract

Feature Selection (FS) problem is one of real-world problems.

FS technique is one of the proposed solutions employed to make a predictive model that minimizes the classifier’s errors of prediction through selection of informative or important features by discarding redundant, noisy, and irrelevant attributes in original dataset.

Therefore, FS is essential and important mean to treat the problems of classification and reduce dimensionality.

To solve problems of feature selection, has been proposed a hybrid FS approach based on improving the Sine Cosine Algorithm (SCA) by combining it with Genetic Algorithm (GA) and this new hybrid approach is called SCAGA.

Design of metaheuristic algorithm displays two criteria, namely, exploration strategy of the search space and exploitation strategy for determining the optimal solution.

This improvement resulted in getting better performance when balancing between exploitation strategy and exploration strategy of the search space.

In addition, has been evaluated the hybrid approach by using the following evaluation criteria: classification accuracy, statistical worst fitness, statistical mean fitness, statistical best fitness, average number of features, and standard deviation.

Moreover, was obtained maximum accuracy of classification and minimal features size in the results.

In addition, the results were compared with native Sine Cosine Algorithm (SCA) and other related approaches published in the literature survey such as antlion optimization and particle swarm optimization.

The comparison showed that the obtained results from SCAGA method were the best over all datasets were collected from UCI machine learning repository.

Main Subjects

Information Technology and Computer Science

Topics

No. of Pages

80

Table of Contents

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Background of data mining.

Chapter Three : Literature survey.

Chapter Four : Procedures and methodology.

Chapter Five : The results and discussion.

Conclusions and future work.

References.

American Psychological Association (APA)

Dulaymi, Akram Jamal Ali. (2019). A feature selection method for data mining tasks using hybrid sine cosine algorithm with genetic algorithm. (Master's theses Theses and Dissertations Master). Amman Arab University, Jordan
https://search.emarefa.net/detail/BIM-931854

Modern Language Association (MLA)

Dulaymi, Akram Jamal Ali. A feature selection method for data mining tasks using hybrid sine cosine algorithm with genetic algorithm. (Master's theses Theses and Dissertations Master). Amman Arab University. (2019).
https://search.emarefa.net/detail/BIM-931854

American Medical Association (AMA)

Dulaymi, Akram Jamal Ali. (2019). A feature selection method for data mining tasks using hybrid sine cosine algorithm with genetic algorithm. (Master's theses Theses and Dissertations Master). Amman Arab University, Jordan
https://search.emarefa.net/detail/BIM-931854

Language

English

Data Type

Arab Theses

Record ID

BIM-931854