Performance evaluation of similarity functions for duplicate record detection

العناوين الأخرى

تقييم أداء دالات الكشف عن التشابه للسجلات المكررة

مقدم أطروحة جامعية

al-Nuri, Mithaq Kazim

مشرف أطروحة جامعية

Aqil, Misbah M.

أعضاء اللجنة

Shilbayah, Nidal F.
al-Umari, Ahmad H.

الجامعة

جامعة الشرق الأوسط

الكلية

كلية تكنولوجيا المعلومات

القسم الأكاديمي

قسم نظم المعلومات الحاسوبية

دولة الجامعة

الأردن

الدرجة العلمية

ماجستير

تاريخ الدرجة العلمية

2011

الملخص الإنجليزي

Duplicate record detection is an important process in data quality.

Its methods usually rely on the use of similarity functions to identify pairs of records in one or more datasets that refer to the same real world entity.

There is a wide range of similarity functions and very few studies that compare the effectiveness of the various similarity functions.

In our research we evaluate the quality of a number of similarity functions on synthetic datasets using a measure used in approximate querying called discernability.

We based on the semi-automatic method to estimate optimal threshold values.

Experiments were carried out to prove the technique proposed.

The results show that discernability measure can determine the threshold value and measure if a similarity function is more adequate for a specific data set than another .

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

عدد الصفحات

83

قائمة المحتويات

Table of contents.

Abstract.

Abstract in Arabic.

Chapter One : Introduction.

CNS Intravascular Lymphoma : A Case Report /

Chapter Three : Duplecate detaction framework.

Chapter Four : Analysis and results.

Chapter Five : Conclusion and future work.

References.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Nuri, Mithaq Kazim. (2011). Performance evaluation of similarity functions for duplicate record detection. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-694891

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Nuri, Mithaq Kazim. Performance evaluation of similarity functions for duplicate record detection. (Master's theses Theses and Dissertations Master). Middle East University. (2011).
https://search.emarefa.net/detail/BIM-694891

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Nuri, Mithaq Kazim. (2011). Performance evaluation of similarity functions for duplicate record detection. (Master's theses Theses and Dissertations Master). Middle East University, Jordan
https://search.emarefa.net/detail/BIM-694891

لغة النص

الإنجليزية

نوع البيانات

رسائل جامعية

رقم السجل

BIM-694891