Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining

Other Title(s)

Risk factors and prediction of type 2 diabetes in Algeria : a new approach using data mining
عوامل الخطر و التنبؤ بمرض السكري من النوع 2 في الجزائر : باستخدام تقنية DATA MINING

Joint Authors

Sadi, Khadijah
Lunisi, Misbah Nura

Source

Les Cahiers du CREAD

Issue

Vol. 36, Issue 4 (31 Dec. 2020), pp.141-169, 29 p.

Publisher

Centre de Recherche en Économie Appliquée pour le Développement

Publication Date

2020-12-31

Country of Publication

Algeria

No. of Pages

29

Main Subjects

Public Health

Topics

Abstract EN

In this article, we use data mining tools to extract risk factors for Type 2 Diabetes (DT2) and predict the occurrence of the disease by developing predictive rules.

The study compares the effectiveness of two supervised learning models: decision trees and Naïf Bayesian.

In univariate analysis, seven variables were pertinent: gender, age, BMI, cholesterol, hypertension, physical activity and ATCF.

The multivariate analysis showed that body mass and physical activity, are the main risk factors for DT2 and to a lesser degree age and cholesterol rate.

Classification by both models yielded an accuracy of 94.5% for the decision trees and 96.47% for the Bayesian.

The most predictive of the two models was the decision tree, with an area under the ROC curve of 0.964, an estimated error rate of 10.44% and an ability to detect true diabetics of 90.5%

Abstract FRE

Objectif: l'objectif de ce travail est d'utiliser le data mining pour extraire, d'une part les principaux facteurs de risque du diabète Type 2 et d'autre part apporter une aide à la décision au praticien pour la prédiction de la survenue de la maladie par l'élaboration d'équations et de règles prédictives.

Méthodes: Nous avons mené une étude prospective recensant 134 patients sur une période de trois mois.

Un questionnaire a été utilisé pour collecter des informations.

Les patients que nous avons retenus pour l'étude sont de nouveaux cas qui viennent se faire dépister.

Il s'agit de personnes âgées de 33 à 79 ans.

Des données sociodémographiques, cliniques, et les facteurs de risque associés ont été recueillis.

Deux modèles d'apprentissage supervisés: les arbres de décision et le bayésien Naif ont été appliqués.

L'étude compare l'efficacité des deux modèles pour prédire d'une part les facteurs de risque potentiels et d'autre part contribuer à l'élaboration de modèles prédictifs et de courbes ROC.

Le traitement des données et l'analyse statistique ont été réalisés avec des logiciels de data mining et XLSTAT.

Résultats: 134 malades ont été inclus dans cette étude dont 87 femmes et 47 hommes soit un ratio de 0, 54.

L'âge médian était de 55 ans et le poids médian de 84kg.

L'IMC moyen est de 32, 21 avec un écart-type de 3, 96.

Nos résultats concordent avec ceux de la littérature: l'indice de masse corporelle (IMC) correspond au facteur de risque dominant favorisant le diabète type 2, les personnes ayant un taux de cholestérol supérieur à la médiane sont plus susceptibles de contracter la maladie, l'âge (la tranche d'âge la plus touchée est celle des 50-70 ans), la sédentarité, due essentiellement aux mau-vaises habitudes alimentaires et à l'insuffisance d'activité physique.

L'étude de classification par les deux modèles a donné une précision de classification de 94.

5% pour les arbres de décision et de 96, 47% pour la classification bayésienne.

Les différentes évaluations des modèles ont montré que la démarche proposée est très efficace et augmente la performance en classification.

Conclusion: En analyse univariée, sept variables étaient pertinentes (Sexe, l'âge, l'IMC, le taux de cholesterol, l'HTA, l'activité physique et les antécédents familiaux).

L'analyse multivariée a montré que la masse corporelle et l'activité physique représentent les principaux facteurs de risque du diabète non insulino-dépendant dans notre jeu de données et à un degré moindre l'âge et le taux de cholestérol.

Les deux modèles présentent pratiquement les mêmes performances.

Le plus prédictif des deux modèles étant les arbre de décision, avec une aire sous la courbe ROC de 0, 964, un taux d'erreur estimé à 10, 44% et une capacité à détecter les vrais diabétiques de 90, 5%.

American Psychological Association (APA)

Lunisi, Misbah Nura& Sadi, Khadijah. 2020. Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining. Les Cahiers du CREAD،Vol. 36, no. 4, pp.141-169.
https://search.emarefa.net/detail/BIM-1325326

Modern Language Association (MLA)

Lunisi, Misbah Nura& Sadi, Khadijah. Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining. Les Cahiers du CREAD Vol. 36, no. 4 (2020), pp.141-169.
https://search.emarefa.net/detail/BIM-1325326

American Medical Association (AMA)

Lunisi, Misbah Nura& Sadi, Khadijah. Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining. Les Cahiers du CREAD. 2020. Vol. 36, no. 4, pp.141-169.
https://search.emarefa.net/detail/BIM-1325326

Data Type

Journal Articles

Language

French

Notes

Includes Appendices : p. 169

Record ID

BIM-1325326