Clustering big data based on IWC-PSO and MapReduce

Other Title(s)

عنقدة البيانات الكبيرة بالاعتماد على خوارزميات تحسين الأداء و الحوسبة الموزعة

Dissertant

Sukayk, Ahmad Zakariyya Ibrahim

Thesis advisor

Ashur, Wisam Mahmud

University

Islamic University

Faculty

Faculty of Engineering

Department

Department of Computer Engineering

University Country

Palestine (Gaza Strip)

Degree

Master

Degree Date

2018

Arabic Abstract

يعتبر علم البيانات من حيث دراستها وتحليلها والتنقيب فيها واستنباط المعلومات المخفية بداخلها من أشهر العلوم في الوقت الراهن، خصوصا بعد ظهور وانتشار البيانات الضخمة في مختلف مناحي الحياة وتنوع أساليب تجميعها ومعالجتها، حيث تقوم الخوارزميات الحديثة وباستخدام تقنيات تعليم الآلية والذكاء الاصطناعي بجمع وتصنيف كل صغيرة وكبيرة في معظم المجالات الحيوية.

في مجال الطب مثلا، يتم دراسة وتجميع كل حركات وصفات وبيانات الخلايا الحيوية وتمييز الخلايا المصابة والسليمة ومحاولة التنيز والتشخيص المبكر للكثير من الأمراض بناء على المعلومات التي يتم استنباطها واستقراءها من النتائج.

بالإضافة لمجال الطلب يدخل علم ودراسة البيانات الضخمة في كثير من تفاصيل ومجالات العلوم المختلفة.

أيضا فإن دراسة وتحليل ما يتم نشره عبر وسائل التواصل الاجتماعي المختلفة من بيانات وصور وأحداث ومنشورات ومحادثات قد ساهم بشكل فعلي وكبير في الكثير من القرارات الاقتصادية والسياسية للدول الكبيرة و قد أثر بشكل كبير على نتائج الانتخابات مثلا في بعض الدول أيضا.

ولإدارة عملية التنقيب ومعالجة البيانات فإنه يتم استخدام العديد من الخوارزميات والأنظمة التي من شأنها دراسة وتحليل وتصنيف وعقدة هذه البيانات وفق معايير يتم ضبطها من قبل المهندسين والخبراء للوصول إلى نتائج مرضية وبجودة عالية.

من أشهر هذه الخوارزميات هي خوارزميات الشبكات العصبونية وشجرة القرارات والعنقدة المبنية على أنماط وصفات معينة للبيانات مثل خوارزمية K-Means والنسخة المعدلة منها Inverse Weighted Clustering.

تقترح هذه الرسالة خوارزمية هجينة جديدة تعمل على معالجة وعتقدة البيانات الكبيرة وتقترح حلولا لبعض المشاكل الموجودة في الخوارزميات السابقة.

حيث تعمل الخوارزمية المقترحة على استغلال نقاط القوة في خوارزمية Inverse Weighted Clustering من حيث إيجاد مراكز العناقيد والمجموعات المطلوبة بسرعة وكفاءة عالية ودمجها مع خوارزمية تحسين الأداء المشهورة Particle Swarm Optimization في تسريع وتحسين النتائج من خلال تقليل مساحات البحث وحجم البيانات المطلوب معالجتها للعثور على النتائج المرجوة.

كذلك تضمن هذا البحث استخدام هذه الخوارزمية في نطاق بيئة عمل خاصة بالأنظمة الموزعة والمتوازية، حيث تم استخدام معايير Map/Reduce وباستخدام محرك Apache Spark للاستفادة القصوى من عملية تخفيض الأحمال وموارد الأجهزة الخاصة بعملية معالجة البيانات الضخمة، لما يتطلبه الحجم الهائل من هذه البيانات – التي قد تصل في كثير من الأحيان إلى أكثر من بليون سجل - من مواصفات وأجهزة حاسوبية عالية الموارد ومعالجات فائقة السرعة.

النتائج العملية الموضحة والمرفقة في هذا البحث والتي تم تشمل نتائج أكثر من 80 تجربة عملية، تؤكد على أنه يمكن الاعتماد على هذه الخوارزمية بشكل كامل في معالجة وعقدة البيانات الكبيرة بكفاءة وسرعة وجودة عالية جدا مقارنة مع النتائج التي ظهرت مع تجريب النماذج والأنظمة السابقة والتقليدية.

English Abstract

There has been a massive growth in the data volume generated of over the recent few years.

Manipulate of this huge amounts of data, commonly defined as big data processing, requires considerably extensible data analysis strategies.

Data gathering and eliciting aka Clustering is an exploratory data analysis approach used to reveal the implicit groups in the data.

Further, clustering is a widely used technique of finding interesting patterns residing in the dataset that are not obviously known.

In medicine for example, all the movements, characteristics and genetic information are collected in order to identify the infected and healthy cells, and attempt to predict and diagnose many diseases in preliminary stages.

Conventional clustering methods were no longer appropriate for use in data mining applications that make use of big data.

There have been a plenty of big data clustering algorithms developed in recent years.

However the majority of them do not attain clustering with high quality.

Although the K-Means and Inverse Weighted Clustering are accurate and effective in simple and traditional data clustering, they are not operative for large-scaled data.

In this thesis, we will introduce a new approach that conquers the drawbacks of both algorithms, enhance big data clustering and avoids being trapped in a local optimal solution leveraging a powerful optimization algorithm (Particle Swarm Optimizing) socalled PSO and take care of decreasing the time and resources consumption by utilizing a powerful distribution framework Apache/Spark.

The proposed algorithm can be applied in a numerous of real-world applications.

Where we prove the leverage of the hybrid algorithm using more than 80 experiments and interestingly the results show that the algorithm can considerably reduce the clustering cost and produce superior clustering outputs in a way that is accurate and fruitful than standalone K-Means, IWC and PSO algorithms.

Main Subjects

Information Technology and Computer Science

Topics

No. of Pages

52

Table of Contents

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Related works.

Chapter Three : Background.

Chapter Four : Hybrid PSO-IWC for big data clustering.

Chapter Five : Experimental results.

Chapter Six : Conclusion and further research.

References.

American Psychological Association (APA)

Sukayk, Ahmad Zakariyya Ibrahim. (2018). Clustering big data based on IWC-PSO and MapReduce. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905016

Modern Language Association (MLA)

Sukayk, Ahmad Zakariyya Ibrahim. Clustering big data based on IWC-PSO and MapReduce. (Master's theses Theses and Dissertations Master). Islamic University. (2018).
https://search.emarefa.net/detail/BIM-905016

American Medical Association (AMA)

Sukayk, Ahmad Zakariyya Ibrahim. (2018). Clustering big data based on IWC-PSO and MapReduce. (Master's theses Theses and Dissertations Master). Islamic University, Palestine (Gaza Strip)
https://search.emarefa.net/detail/BIM-905016

Language

English

Data Type

Arab Theses

Record ID

BIM-905016