Gene expression data classification : some distance-based methods

Other Title(s)

تصنيف بيانات التعبير الجيني : بعض الطرق القائمة على المسافة

Author

Makinde, Olusola Samuel

Source

Kuwait Journal of Science

Issue

Vol. 46, Issue 3 (31 Jul. 2019), pp.31-39, 9 p.

Publisher

Kuwait University Academic Publication Council

Publication Date

2019-07-31

Country of Publication

Kuwait

No. of Pages

9

Main Subjects

Mathematics

Abstract AR

مجموعة بيانات micro-array هي مثال كلاسيكى لبيانات الإنتاجية العالية التي تتميز بمزيد من الخصائص (الجينات) أكثر من نقاط العينة (مستويات التعبير الجيني).

تم اقتراح عدد من تقنيات التصنيف في النشرات العلمية، وكانت العديد من هذه الطرق إما مكلفة حسابيا أو كان أداؤها دون المستوى الأمثل.

في هذا البحث، تم النظر في بعضى دوال المسافة وتمت صياغة قواعد التصنيف على أساس دوال المسافة؛ والتي تشمل: قياس متوسط المسافة، وسيط المسافة إلى العنصر، والمتوسط إلى المسافة.

وتم كذلك تعديد نهج احتمال لقواعد التصنيف على أساس اثنين من قياسات المسافة.

وتم استخدام تقنية اختيار الجينات التي تستند إلى تحليل ميز منظم مركزي منقبض على أنسجة خلايا زرقاء صغيرة مستديرة وسرطان القولون وسرطان الغدد الليمفاوية وسرطان البروستاتا وسرطان الدم قبل تطبيق قواعد التصنيف.

وأجريت ثلاث دراسات محاكاة لتقليد بيانات التعبير الجيني.

وتمت مقارنة أداء طرق التصنيف المذكورة أعلاه مع أداء بعضى طرق التصنيف المعروفة في النشرات العلمية.

وكان أداء طرق التصنيف عن بعد منافسا لبعضى طرق التصنيف الحالية.

وكانت الطرق المستندة على المسافة التي تم تنفيذها في هذه الدراسة بسيطة من الناحية الحسابية ورخيصة جدا من حيث المكلمه

Abstract EN

Micro-array dataset is a classical example of high throughput data characterized with more features(genes) than sample points(gene expression levels).

A number of classification techniques have been proposed in literature.

Many of these methods are either computationally expensive or perform sub-optimally.

In this paper, some distance functions are considered and classification rules based on the distance functions are formulated.

The distance functions include average distance measure, distance to component-wise median, distance to mean.

These methods are computationally simple and are expected to perform well for gene expression data.

We also define a probabilistic approach to classification rules based on two of the distance measures.

Gene selection technique based on shrunken centroids regularized discriminant analysis was employed on small round blue cell tissue, colon cancer, lymphoma, prostate cancer and leukaemia data before applying the classification rules.

Three simulation studies were performed to mimic gene expression data.

The performance of the classification methods mentioned above was compared with performance of some known classification methods in literature.

The distance-based methods were also performed on gene expression data.

The performance of the distance-based classification methods is competitive with some existing classification methods.

Distance based methods implemented in this study are computationally simple and very cheap in terms of computational cost.

American Psychological Association (APA)

Makinde, Olusola Samuel. 2019. Gene expression data classification : some distance-based methods. Kuwait Journal of Science،Vol. 46, no. 3, pp.31-39.
https://search.emarefa.net/detail/BIM-1501596

Modern Language Association (MLA)

Makinde, Olusola Samuel. Gene expression data classification : some distance-based methods. Kuwait Journal of Science Vol. 46, no. 3 (Jul. 2019), pp.31-39.
https://search.emarefa.net/detail/BIM-1501596

American Medical Association (AMA)

Makinde, Olusola Samuel. Gene expression data classification : some distance-based methods. Kuwait Journal of Science. 2019. Vol. 46, no. 3, pp.31-39.
https://search.emarefa.net/detail/BIM-1501596

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 37-38

Record ID

BIM-1501596