Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining
Other Title(s)
Risk factors and prediction of type 2 diabetes in Algeria : a new approach using data mining
عوامل الخطر و التنبؤ بمرض السكري من النوع 2 في الجزائر : باستخدام تقنية DATA MINING
Joint Authors
Sadi, Khadijah
Lunisi, Misbah Nura
Source
Issue
Vol. 36, Issue 4 (31 Dec. 2020), pp.141-169, 29 p.
Publisher
Centre de Recherche en Économie Appliquée pour le Développement
Publication Date
2020-12-31
Country of Publication
Algeria
No. of Pages
29
Main Subjects
Topics
Abstract EN
In this article, we use data mining tools to extract risk factors for Type 2 Diabetes (DT2) and predict the occurrence of the disease by developing predictive rules.
The study compares the effectiveness of two supervised learning models: decision trees and Naïf Bayesian.
In univariate analysis, seven variables were pertinent: gender, age, BMI, cholesterol, hypertension, physical activity and ATCF.
The multivariate analysis showed that body mass and physical activity, are the main risk factors for DT2 and to a lesser degree age and cholesterol rate.
Classification by both models yielded an accuracy of 94.5% for the decision trees and 96.47% for the Bayesian.
The most predictive of the two models was the decision tree, with an area under the ROC curve of 0.964, an estimated error rate of 10.44% and an ability to detect true diabetics of 90.5%
Abstract FRE
Objectif: l'objectif de ce travail est d'utiliser le data mining pour extraire, d'une part les principaux facteurs de risque du diabète Type 2 et d'autre part apporter une aide à la décision au praticien pour la prédiction de la survenue de la maladie par l'élaboration d'équations et de règles prédictives.
Méthodes: Nous avons mené une étude prospective recensant 134 patients sur une période de trois mois.
Un questionnaire a été utilisé pour collecter des informations.
Les patients que nous avons retenus pour l'étude sont de nouveaux cas qui viennent se faire dépister.
Il s'agit de personnes âgées de 33 à 79 ans.
Des données sociodémographiques, cliniques, et les facteurs de risque associés ont été recueillis.
Deux modèles d'apprentissage supervisés: les arbres de décision et le bayésien Naif ont été appliqués.
L'étude compare l'efficacité des deux modèles pour prédire d'une part les facteurs de risque potentiels et d'autre part contribuer à l'élaboration de modèles prédictifs et de courbes ROC.
Le traitement des données et l'analyse statistique ont été réalisés avec des logiciels de data mining et XLSTAT.
Résultats: 134 malades ont été inclus dans cette étude dont 87 femmes et 47 hommes soit un ratio de 0, 54.
L'âge médian était de 55 ans et le poids médian de 84kg.
L'IMC moyen est de 32, 21 avec un écart-type de 3, 96.
Nos résultats concordent avec ceux de la littérature: l'indice de masse corporelle (IMC) correspond au facteur de risque dominant favorisant le diabète type 2, les personnes ayant un taux de cholestérol supérieur à la médiane sont plus susceptibles de contracter la maladie, l'âge (la tranche d'âge la plus touchée est celle des 50-70 ans), la sédentarité, due essentiellement aux mau-vaises habitudes alimentaires et à l'insuffisance d'activité physique.
L'étude de classification par les deux modèles a donné une précision de classification de 94.
5% pour les arbres de décision et de 96, 47% pour la classification bayésienne.
Les différentes évaluations des modèles ont montré que la démarche proposée est très efficace et augmente la performance en classification.
Conclusion: En analyse univariée, sept variables étaient pertinentes (Sexe, l'âge, l'IMC, le taux de cholesterol, l'HTA, l'activité physique et les antécédents familiaux).
L'analyse multivariée a montré que la masse corporelle et l'activité physique représentent les principaux facteurs de risque du diabète non insulino-dépendant dans notre jeu de données et à un degré moindre l'âge et le taux de cholestérol.
Les deux modèles présentent pratiquement les mêmes performances.
Le plus prédictif des deux modèles étant les arbre de décision, avec une aire sous la courbe ROC de 0, 964, un taux d'erreur estimé à 10, 44% et une capacité à détecter les vrais diabétiques de 90, 5%.
American Psychological Association (APA)
Lunisi, Misbah Nura& Sadi, Khadijah. 2020. Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining. Les Cahiers du CREAD،Vol. 36, no. 4, pp.141-169.
https://search.emarefa.net/detail/BIM-1325326
Modern Language Association (MLA)
Lunisi, Misbah Nura& Sadi, Khadijah. Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining. Les Cahiers du CREAD Vol. 36, no. 4 (2020), pp.141-169.
https://search.emarefa.net/detail/BIM-1325326
American Medical Association (AMA)
Lunisi, Misbah Nura& Sadi, Khadijah. Des facteurs de risque à la prediction du diabète non insulino-dependant en Algérie : une nouvelle approche utilisant le data mining. Les Cahiers du CREAD. 2020. Vol. 36, no. 4, pp.141-169.
https://search.emarefa.net/detail/BIM-1325326
Data Type
Journal Articles
Language
French
Notes
Includes Appendices : p. 169
Record ID
BIM-1325326