Hiding sensitive frequent itemsets over privacy preserving distributed data mining

Joint Authors

al-Janabi, Sufyan Tayih Faraj
Jumah, Ala Kh.
Ali, Nizar A.

Source

مجلة الرافدين لعلوم الحاسبات و الرياضيات : مجلة علمية محكمة و مفهرسة

Publisher

University of Mosul College of Computer Science and Mathematics

Publication Date

2013-04-30

Country of Publication

Iraq

No. of Pages

15

Main Subjects

Information Technology and Computer Science

Topics

Arabic Abstract

إن عملية تنقيب البيانات هي عبارة عن استخلاص الأنماط المخفية من البيانات.

و إن التنقيب عن العلاقات الرابطة يعد واحداً من أهم فعاليات تنقيب البيانات و التي أصبح التوجه الحديث للباحثين فيها هو الحفاظ على سرية تلك البيانات المنقب عنها.

فالتنقيب المحافظ على خصوصية البيانات هو من أهم توجهات البحوث العملية الجديدة في خصوصية البيانات و قواعد البيانات الإحصائية.

و يمكن تطبيق فعاليات التنقيب هذه على قواعد البيانات المركزية و الموزعة.

و رغم أن أكثر الأساليب فعالية لقواعد البيانات الموزعة تفترض التنقيب في البيانات التي يمكن تشاركها بين المواقع المختلفة، غير أن تلك الأساليب لم يعد بالإمكان تطبيقها في كثير من الأحيان بسبب المخاوف المتعلقة بخصوصية منع المواقع من تبادل البيانات بشكل مباشر، أو تبادل بعض أنواع المعلومات حول البيانات.

لذلك أصبح للتنقيب المحافظ على خصوصية البيانات (PPDM) شعبية متزايدة لأنه يسمح بتبادل البيانات الحساسة الخصوصية لأغراض التحليل.

في هذا البحث، تم التصدي لمشكلة الحفاظ على خصوصية التنقيب للعلاقات الرابطة في قاعدة بيانات موزعة أفقياً من خلال اقتراح نظام لحساب العناصر (itemsets) العامة المتكررة أو العلاقات الرابطة من مواقع مختلفة دون الكشف عن المعاملات الفردية.

كما نقدم من هنا أيضاً خوارزمية جديدة لإخفاء هذه العناصر المتكررة الحساسة أو قواعد الرابطة الحساسة من خلال إخفائها في كل موقع على حدة.

و يمكن أن يتم ذلك عن طريق تعديل قاعدة البيانات الأصلية لكل موقع من أجل خفض الدعم لكل من العناصر الحساسة أو العلاقات الرابطة.

النتائج التي تم الحصول عليها من تطبيق الخوارزمية المفترضة تشير إلى قدرتها على إخفاء العناصر المتكررة الحساسة بوقت تنفيذ جيد و بأقل تأثيرات جانبية.

كما أن النظام المفترض استطاع الحصول على العناصر المتكررة العامة للبيانات (Global Frequent Itemset) الموزعة على عدة مواقع مع الحفاظ على خصوصية كل موقع.

English Abstract

Data mining is the process of extracting hidden patterns from data.

One of the most important activities in data mining is the association rule mining and the new head for data mining research area is privacy of mining.

Privacy preserving data mining is a new research trend in privacy data for data mining and statistical database.

Data mining can be applied on centered or distributed databases.

Most efficient approaches for mining distributed databases suppose that all of the data at each site can be shared.

Privacy concerns may prevent the sites from directly sharing the data, and some types of information about the data.

Privacy Preserving Data Mining (PPDM) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes.

In this paper, the problem of privacy preserving association rule mining in horizontally distributed database is addressed by proposing a system to compute a global frequent itemsets or association rules from different sites without disclosing individual transactions.

Indeed, a new algorithm is proposed to hide sensitive frequent itemsets or sensitive association rules from the global frequent itemsets by hiding them from each site individually.

This can be done by modifying the original database for each site in order to decrease the support for each sensitive itemset or association rule.

Experimental results show that the proposed algorithm hides rules in a distributed system with the good execution time, and with limited side effects.

Also, the proposed system has the capability to calculate the global frequent itemsets from different sites and preserves the privacy for each site.

Data Type

Conference Papers

Record ID

BIM-333764

American Psychological Association (APA)

Jumah, Ala Kh.& al-Janabi, Sufyan Tayih Faraj& Ali, Nizar A.. 2013-04-30. Hiding sensitive frequent itemsets over privacy preserving distributed data mining. المؤتمر العلمي في تقانة المعلومات (5 : 2012 : الموصل، العراق). . Vol. 10, no. 1 (2013), pp.91-105.الموصل، العراق : جامعة الموصل، كلية علوم الحاسبات و الرياضيات،.
https://search.emarefa.net/detail/BIM-333764

Modern Language Association (MLA)

Jumah, Ala Kh.…[et al.]. Hiding sensitive frequent itemsets over privacy preserving distributed data mining. . الموصل، العراق : جامعة الموصل، كلية علوم الحاسبات و الرياضيات،. 2013-04-30.
https://search.emarefa.net/detail/BIM-333764

American Medical Association (AMA)

Jumah, Ala Kh.& al-Janabi, Sufyan Tayih Faraj& Ali, Nizar A.. Hiding sensitive frequent itemsets over privacy preserving distributed data mining. . المؤتمر العلمي في تقانة المعلومات (5 : 2012 : الموصل، العراق).
https://search.emarefa.net/detail/BIM-333764