An improved BIRCH algorithm for breast cancer clustering

العناوين الأخرى

تصنيف مرض سرطان الثدي باستخدام خوارزمية (BIRCH)‎ المحسنة

مقدم أطروحة جامعية

Barham, Maysarah Muhammad Husayn

مشرف أطروحة جامعية

al-Zubi, Ahmad Ghazi


جامعة الشرق الأوسط


كلية تكنولوجيا المعلومات

القسم الأكاديمي

قسم علم الحاسوب

دولة الجامعة


الدرجة العلمية


تاريخ الدرجة العلمية


الملخص العربي

أصبح سرطان الثدي مرضاً شائعا يصيب النساء في جميع أنحاء العالم، ولكن في معظم الحالات يكون العلاج ممكنا عند اكتشافه مبكرا تلعب اختبارات الفحص دور في تحديد الأورام قبل أن تصبح سرطانية، حيث يكون تشخيص سرطان الثدي أكثر فعالية مقارنة بالاختبارات الأخرى على مدى العقود القليلة الماضية، كان تشخيص مرض السرطان بمساعدة الكمبيوتر موضوعًا للبحث و حقق تقدما كبيرا.

و مع ذلك، فإن التجميع و التحليل التلقائي لسجلات المرضى في الوقت الحقيقي لا يزال مهمة صعبة بسبب معايير الاختيار المعلمات BIRCH و مقاييس الربط و التشابه.

التجميع عبارة عن تقنية للتعلم الألي غير خاضعة للرقابة تُستخدم لتجميع عناصر البيانات دون معرفة مسبقة بتعريفات هذه المجموعة.

قد يؤدي استخدام خوارزميات التجميع لكمية كبيرة من البيانات إلى مشاكل في الكفاءة و الدقة من أجل مساعدة المتخصصين في اتخاذ القرارات المناسبة أثناء التعامل مع سجلات المرضى، تقترح في هذه الأطروحة نسخة محسنة من خوارزمية BIRCH) للتجميع الهرمي يهدف هذا النهج إلى تحويل السجلات الطبية و تجميعها بما في ذلك سمات المرض إلى مجموعات فرعية بحيث يتم تجميع و تحليل السمات المماثلة.

يتكون (BIRCH) المحسن المقترح من أربعة مكونات رئيسية اختيار الميزات و إعادة تحديدها، و تهيئة عتبة تلقائية فعالة، و اختيار تجريبي لطرق الربط و مقاييس المسافة على وجه التحديد، يتم تغذية التجميع الأساسي (BIRCH) بميزات مختارة و قيمة عتبة تلقائية للتحكم في التجمعات الفرعية القائمة على الأشجار بالإضافة إلى إجراءات الربط و التشابه المختلفة.

يتم استخدام مجموعة بيانات القياس (Breast Cancer Wisconsin) لتقييم الخوارزمية المقترحة.

حيث أظهرت النتائج التجريبية أن خوارزمية (BIRCH) المصنة يمكنها تحقيق دقة تجميعية بنسبة (797.7) خلال (0.0004) ثانية فقط، مما يؤكد كفاءتها في مساعدة الأطباء في تحليل سجلات المرضى و اتخاذ القرارات.

الملخص الإنجليزي

Breast cancer became a popular disease affects women over the world, but in most cases, treatment is possible when discovered early.

Screening tests play an important role in identifying tumors before they become cancerous, where diagnosis of breast cancer is more effective compared to other tests.

Over the past few decades, the computer-aided diagnosis of cancer has been the subject of research and achieved significant advances.

However, the automatic clustering and analysis of patients records in real-time is still a challenging task associated with the selection criteria of BIRCH parameters, and linkage and similarity metrics.

Clustering is an unsupervised machine learning technique used to group data elements without advance knowledge of group definitions.

Using aggregation algorithms for a large amount of data could lead to efficiency and accuracy problems.

In order to help specialists in making proper decisions while dealing with patients' records, we propose in this thesis work an improved version of the clustering algorithm called balanced iterative reducing and clustering using hierarchies (BIRCH).

This approach aims at transforming and clustering the medical records including the disease features into subclusters so that the similar features are grouped and analyzed.

The proposed improved BIRCH consists of four main components: features selection, features rescale, an efficient automatic threshold initialization, and empirical selection of linkage methods and distance metrics.

Specifically, the basic BIRCH clustering is fed with normalized selected features and automatic threshold value to control the tree-based sub-clustering as well as different linkage and similarity measures are involved.

The Breast Cancer Wisconsin dataset is used to evaluate the proposed algorithm.

The experimental results show that the improved BIRCH algorithm achieves a clustering accuracy of 97.7% during only 0.0004 seconds, which confirms its efficiency in helping doctors in analyzing the patients' records and making decisions.

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب


عدد الصفحات


قائمة المحتويات

Table of contents.


Abstract in Arabic.

Chapter One : Study background and motivation.

Chapter Two : Related work.

Chapter Three : Methodology and proposed model.

Chapter Four : Experimental results and discussion.

Chapter Five : Conclusion and future work.


نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Barham, Maysarah Muhammad Husayn. (2020). An improved BIRCH algorithm for breast cancer clustering. (Master's theses Theses and Dissertations Master). Middle East University, Jordan

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Barham, Maysarah Muhammad Husayn. An improved BIRCH algorithm for breast cancer clustering. (Master's theses Theses and Dissertations Master). Middle East University. (2020).

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Barham, Maysarah Muhammad Husayn. (2020). An improved BIRCH algorithm for breast cancer clustering. (Master's theses Theses and Dissertations Master). Middle East University, Jordan

لغة النص


نوع البيانات

رسائل جامعية

رقم السجل
