HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams

Other Title(s)

نموذج متوازي هجين لخوارزميات العنقدة للبيانات المستمرة بالاعتماد على التقسيم و الكثافة للبيانات

Author

al-Abd al-Aziz, Ammar Zahir Yasin

Source

al- Rafidain Journal of Computer Sciences and Mathematics

Issue

Vol. 14, Issue 1 (30 Jun. 2020), pp.67-82, 16 p.

Publisher

University of Mosul College of Computer Science and Mathematics

Publication Date

2020-06-30

Country of Publication

Iraq

No. of Pages

16

Main Subjects

Mathematics

Topics

Abstract AR

المصطلح عنقدة البيانات المستمرة يشير الى عملية توزيع مستمرة للبيانات الجديدة و المتولدة بشكل مستمر إلى مجاميع قابلة للتغيير بشكل مستمر لتمكين عملية التحليل المتزامنة للأنماط الجديدة.

على اية حال، توجه البحوث في مجال خوارزميات العنقدة الى وقتنا هذا متركزة على تحديث هذه الخوارزميات و التي تعمل مع البيانات الثابتة الى بيئة البيانات المستمرة او تطوير خوارزميات البيانات المستمرة.

هذه الخوارزميات تقدم فقط نوع واحد من العناقد المخرجة و التي تكون اما عناقيد كروية او عناقيد غير منتظمة الشكل.

هذا البحث يقدم خوارزمية متوازية هجينة جديدة تدعى HPPD و التي تميز العناقيد الكروية و العناقيد غير الكروية في الطور المباشر وكذلك تميز العناقيد المشتركة في الطور غير المباشر.

في هذا البحث، اولا نقوم باستلام البيانات المستمرة ونطبق عليها عمليات تهيئة استباقية لاكتشاف العناقيد الكروية وغير الكروية.

ثانيا، نقوم بتطبيق نسخة محدثة من خوارزمية EINCKM على العناقيد الكروية وكذلك نطبق نسخة محدثة من خوارزمية EDDS على العناقيد غير الكروية وهذا يتم في الطور المباشر.

ثالثا، نطبق ستراتجية دمج جديدة للحصول على العناقيد المختلطة النهائية.

هذه الخوارزمية تم فحصها على بيانات افتراضية لغرض معرفة مدى فاعليتها.

النتائج النهائية للتجارب وثقت فاعلية و فائدة الخوارزمية المقترحة و مدى فرقها عن سابقاتها.

Abstract EN

Data stream clustering refers to the process of grouping continuously arriving new data chunks into continuously changing groups to enable dynamic analysis of segmentation patterns.

However, the main attention of research on clustering methods till now has been concerned with alteration of the methods updated for static datasets and changes of the available modified methods.

Such methods presented only one type of final output clusters, i.

e.

convex or non-convex shape clusters.

This paper presents a novel two-phase parallel hybrid clustering (HPPD) algorithm that identify convex and non-convex groups in online stage and mixed groups in offline stage from data stream.

In this work, we first receive the data stream and apply pre-processing step to identify convex and non-convex clusters.

Secondly, apply modified EINCKM to present online output convex clusters and modified EDDS to present online output non-convex clusters in parallel scheme.

Thirdly, apply adaptive merging strategy in offline stage to give last composed output groups.

The method is assessed on a synthetic dataset.

The output results of the experiments have authenticate the activeness and effectiveness of the method.

American Psychological Association (APA)

al-Abd al-Aziz, Ammar Zahir Yasin. 2020. HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams. al- Rafidain Journal of Computer Sciences and Mathematics،Vol. 14, no. 1, pp.67-82.
https://search.emarefa.net/detail/BIM-1224874

Modern Language Association (MLA)

al-Abd al-Aziz, Ammar Zahir Yasin. HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams. al- Rafidain Journal of Computer Sciences and Mathematics Vol. 14, no. 1 (2020), pp.67-82.
https://search.emarefa.net/detail/BIM-1224874

American Medical Association (AMA)

al-Abd al-Aziz, Ammar Zahir Yasin. HPPD : a hybrid parallel framework of partition-based and density-based clustering algorithms in data streams. al- Rafidain Journal of Computer Sciences and Mathematics. 2020. Vol. 14, no. 1, pp.67-82.
https://search.emarefa.net/detail/BIM-1224874

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 81-82

Record ID

BIM-1224874