Gene expression data classification : some distance-based methods

العناوين الأخرى

تصنيف بيانات التعبير الجيني : بعض الطرق القائمة على المسافة

المؤلف

Makinde, Olusola Samuel

المصدر

Kuwait Journal of Science

العدد

المجلد 46، العدد 3 (31 يوليو/تموز 2019)، ص ص. 31-39، 9ص.

الناشر

جامعة الكويت مجلس النشر العلمي

تاريخ النشر

2019-07-31

دولة النشر

الكويت

عدد الصفحات

9

التخصصات الرئيسية

الرياضيات

الملخص AR

مجموعة بيانات micro-array هي مثال كلاسيكى لبيانات الإنتاجية العالية التي تتميز بمزيد من الخصائص (الجينات) أكثر من نقاط العينة (مستويات التعبير الجيني).

تم اقتراح عدد من تقنيات التصنيف في النشرات العلمية، وكانت العديد من هذه الطرق إما مكلفة حسابيا أو كان أداؤها دون المستوى الأمثل.

في هذا البحث، تم النظر في بعضى دوال المسافة وتمت صياغة قواعد التصنيف على أساس دوال المسافة؛ والتي تشمل: قياس متوسط المسافة، وسيط المسافة إلى العنصر، والمتوسط إلى المسافة.

وتم كذلك تعديد نهج احتمال لقواعد التصنيف على أساس اثنين من قياسات المسافة.

وتم استخدام تقنية اختيار الجينات التي تستند إلى تحليل ميز منظم مركزي منقبض على أنسجة خلايا زرقاء صغيرة مستديرة وسرطان القولون وسرطان الغدد الليمفاوية وسرطان البروستاتا وسرطان الدم قبل تطبيق قواعد التصنيف.

وأجريت ثلاث دراسات محاكاة لتقليد بيانات التعبير الجيني.

وتمت مقارنة أداء طرق التصنيف المذكورة أعلاه مع أداء بعضى طرق التصنيف المعروفة في النشرات العلمية.

وكان أداء طرق التصنيف عن بعد منافسا لبعضى طرق التصنيف الحالية.

وكانت الطرق المستندة على المسافة التي تم تنفيذها في هذه الدراسة بسيطة من الناحية الحسابية ورخيصة جدا من حيث المكلمه

الملخص EN

Micro-array dataset is a classical example of high throughput data characterized with more features(genes) than sample points(gene expression levels).

A number of classification techniques have been proposed in literature.

Many of these methods are either computationally expensive or perform sub-optimally.

In this paper, some distance functions are considered and classification rules based on the distance functions are formulated.

The distance functions include average distance measure, distance to component-wise median, distance to mean.

These methods are computationally simple and are expected to perform well for gene expression data.

We also define a probabilistic approach to classification rules based on two of the distance measures.

Gene selection technique based on shrunken centroids regularized discriminant analysis was employed on small round blue cell tissue, colon cancer, lymphoma, prostate cancer and leukaemia data before applying the classification rules.

Three simulation studies were performed to mimic gene expression data.

The performance of the classification methods mentioned above was compared with performance of some known classification methods in literature.

The distance-based methods were also performed on gene expression data.

The performance of the distance-based classification methods is competitive with some existing classification methods.

Distance based methods implemented in this study are computationally simple and very cheap in terms of computational cost.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Makinde, Olusola Samuel. 2019. Gene expression data classification : some distance-based methods. Kuwait Journal of Science،Vol. 46, no. 3, pp.31-39.
https://search.emarefa.net/detail/BIM-1501596

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Makinde, Olusola Samuel. Gene expression data classification : some distance-based methods. Kuwait Journal of Science Vol. 46, no. 3 (Jul. 2019), pp.31-39.
https://search.emarefa.net/detail/BIM-1501596

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Makinde, Olusola Samuel. Gene expression data classification : some distance-based methods. Kuwait Journal of Science. 2019. Vol. 46, no. 3, pp.31-39.
https://search.emarefa.net/detail/BIM-1501596

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 37-38

رقم السجل

BIM-1501596