An improved BIRCH algorithm for breast cancer clustering

Other Title(s)

تصنيف مرض سرطان الثدي باستخدام خوارزمية (BIRCH)‎ المحسنة

Dissertant

Barham, Maysarah Muhammad Husayn

Thesis advisor

al-Zubi, Ahmad Ghazi

University

Middle East University

Faculty

Faculty of Information Technology

Department

Computer Science Department

University Country

Jordan

Degree

Master

Degree Date

2020

Arabic Abstract

أصبح سرطان الثدي مرضاً شائعا يصيب النساء في جميع أنحاء العالم، ولكن في معظم الحالات يكون العلاج ممكنا عند اكتشافه مبكرا تلعب اختبارات الفحص دور في تحديد الأورام قبل أن تصبح سرطانية، حيث يكون تشخيص سرطان الثدي أكثر فعالية مقارنة بالاختبارات الأخرى على مدى العقود القليلة الماضية، كان تشخيص مرض السرطان بمساعدة الكمبيوتر موضوعًا للبحث و حقق تقدما كبيرا.

و مع ذلك، فإن التجميع و التحليل التلقائي لسجلات المرضى في الوقت الحقيقي لا يزال مهمة صعبة بسبب معايير الاختيار المعلمات BIRCH و مقاييس الربط و التشابه.

التجميع عبارة عن تقنية للتعلم الألي غير خاضعة للرقابة تُستخدم لتجميع عناصر البيانات دون معرفة مسبقة بتعريفات هذه المجموعة.

قد يؤدي استخدام خوارزميات التجميع لكمية كبيرة من البيانات إلى مشاكل في الكفاءة و الدقة من أجل مساعدة المتخصصين في اتخاذ القرارات المناسبة أثناء التعامل مع سجلات المرضى، تقترح في هذه الأطروحة نسخة محسنة من خوارزمية BIRCH) للتجميع الهرمي يهدف هذا النهج إلى تحويل السجلات الطبية و تجميعها بما في ذلك سمات المرض إلى مجموعات فرعية بحيث يتم تجميع و تحليل السمات المماثلة.

يتكون (BIRCH) المحسن المقترح من أربعة مكونات رئيسية اختيار الميزات و إعادة تحديدها، و تهيئة عتبة تلقائية فعالة، و اختيار تجريبي لطرق الربط و مقاييس المسافة على وجه التحديد، يتم تغذية التجميع الأساسي (BIRCH) بميزات مختارة و قيمة عتبة تلقائية للتحكم في التجمعات الفرعية القائمة على الأشجار بالإضافة إلى إجراءات الربط و التشابه المختلفة.

يتم استخدام مجموعة بيانات القياس (Breast Cancer Wisconsin) لتقييم الخوارزمية المقترحة.

حيث أظهرت النتائج التجريبية أن خوارزمية (BIRCH) المصنة يمكنها تحقيق دقة تجميعية بنسبة (797.7) خلال (0.0004) ثانية فقط، مما يؤكد كفاءتها في مساعدة الأطباء في تحليل سجلات المرضى و اتخاذ القرارات.

English Abstract

Breast cancer became a popular disease affects women over the world, but in most cases, treatment is possible when discovered early.

Screening tests play an important role in identifying tumors before they become cancerous, where diagnosis of breast cancer is more effective compared to other tests.

Over the past few decades, the computer-aided diagnosis of cancer has been the subject of research and achieved significant advances.

However, the automatic clustering and analysis of patients records in real-time is still a challenging task associated with the selection criteria of BIRCH parameters, and linkage and similarity metrics.

Clustering is an unsupervised machine learning technique used to group data elements without advance knowledge of group definitions.

Using aggregation algorithms for a large amount of data could lead to efficiency and accuracy problems.

In order to help specialists in making proper decisions while dealing with patients' records, we propose in this thesis work an improved version of the clustering algorithm called balanced iterative reducing and clustering using hierarchies (BIRCH).

This approach aims at transforming and clustering the medical records including the disease features into subclusters so that the similar features are grouped and analyzed.

The proposed improved BIRCH consists of four main components: features selection, features rescale, an efficient automatic threshold initialization, and empirical selection of linkage methods and distance metrics.

Specifically, the basic BIRCH clustering is fed with normalized selected features and automatic threshold value to control the tree-based sub-clustering as well as different linkage and similarity measures are involved.

The Breast Cancer Wisconsin dataset is used to evaluate the proposed algorithm.

The experimental results show that the improved BIRCH algorithm achieves a clustering accuracy of 97.7% during only 0.0004 seconds, which confirms its efficiency in helping doctors in analyzing the patients' records and making decisions.

Main Subjects

Information Technology and Computer Science

Topics

No. of Pages

54

Table of Contents

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Study background and motivation.

Chapter Two : Related work.

Chapter Three : Methodology and proposed model.

Chapter Four : Experimental results and discussion.

Chapter Five : Conclusion and future work.

References.

American Psychological Association (APA)

Barham, Maysarah Muhammad Husayn. (2020). An improved BIRCH algorithm for breast cancer clustering. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-970874

Modern Language Association (MLA)

Barham, Maysarah Muhammad Husayn. An improved BIRCH algorithm for breast cancer clustering. (Master's theses Theses and Dissertations Master). Middle East University. (2020).
https://search.emarefa.net/detail/BIM-970874

American Medical Association (AMA)

Barham, Maysarah Muhammad Husayn. (2020). An improved BIRCH algorithm for breast cancer clustering. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-970874

Language

English

Data Type

Arab Theses

Record ID

BIM-970874