Informations

Il s’agit d’un extrait de la formation. Cette formation peut se faire en présentiel ou à distance. Pour en savoir plus, merci de me contacter.

1 Introduction

Illustration de la classification binaire avec un ensemble d’algorithmes classiques
Importance de l’interprétabilité des modèles
Importance de la mesure de performance des modèles (AUC, taux de précision, spécificité et autres)
Mise en place d’un processus opérationnel avec les résultats

2 Préparation des bases

3 Arbres de classification

3.1 Apprentissage de l’arbre de décision

3.2 Matrice de confusion

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0 779 180
##          1  57 363
##                                           
##                Accuracy : 0.8281          
##                  95% CI : (0.8072, 0.8477)
##     No Information Rate : 0.6062          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.6251          
##  Mcnemar's Test P-Value : 2.286e-15       
##                                           
##             Sensitivity : 0.9318          
##             Specificity : 0.6685          
##          Pos Pred Value : 0.8123          
##          Neg Pred Value : 0.8643          
##              Prevalence : 0.6062          
##          Detection Rate : 0.5649          
##    Detection Prevalence : 0.6954          
##       Balanced Accuracy : 0.8002          
##                                           
##        'Positive' Class : 0               
##

3.3 Courbe ROC

Prédiction des résultats en terme de probabilité

##            0         1
## 1 0.33838384 0.6616162
## 2 0.06049822 0.9395018
## 3 0.06049822 0.9395018
## 4 0.06049822 0.9395018
## 5 0.06049822 0.9395018
## 6 0.17021277 0.8297872

3.4 Visualisation

Visualisation interactive

4 Analyse Discriminante

4.1 Apprentissage

4.2 Visualisation

5 SVM

5.1 Apprentissage

5.2 Matrice de confusion

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0 775 148
##          1  61 395
##                                          
##                Accuracy : 0.8484         
##                  95% CI : (0.8284, 0.867)
##     No Information Rate : 0.6062         
##     P-Value [Acc > NIR] : < 2.2e-16      
##                                          
##                   Kappa : 0.6734         
##  Mcnemar's Test P-Value : 2.702e-09      
##                                          
##             Sensitivity : 0.9270         
##             Specificity : 0.7274         
##          Pos Pred Value : 0.8397         
##          Neg Pred Value : 0.8662         
##              Prevalence : 0.6062         
##          Detection Rate : 0.5620         
##    Detection Prevalence : 0.6693         
##       Balanced Accuracy : 0.8272         
##                                          
##        'Positive' Class : 0              
##

6 Regression Logistique

6.1 Apprentissage

## 
## Call:
## glm(formula = class ~ ., family = binomial(link = "logit"), data = a)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.8887  -0.6883  -0.5739   0.6667   1.9673  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.72035    0.06665 -25.810  < 2e-16 ***
## ind_1        0.78617    0.14046   5.597 2.18e-08 ***
## ind_2       -0.04664    0.04581  -1.018 0.308561    
## ind_3        0.58540    0.08456   6.923 4.43e-12 ***
## ind_4        1.90852    1.00260   1.904 0.056965 .  
## ind_5        0.70931    0.07864   9.020  < 2e-16 ***
## ind_6        1.11693    0.16949   6.590 4.40e-11 ***
## ind_7        4.34180    0.36559  11.876  < 2e-16 ***
## ind_8        1.81592    0.20319   8.937  < 2e-16 ***
## ind_9        1.83464    0.20075   9.139  < 2e-16 ***
## ind_10       0.23172    0.06863   3.377 0.000734 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 4321.2  on 3221  degrees of freedom
## Residual deviance: 3093.2  on 3211  degrees of freedom
## AIC: 3115.2
## 
## Number of Fisher Scoring iterations: 9

6.2 Prédictions

La régression logistique n’est pas un algorithme de classification à proprement parler. Il s’agit de la régression de la probabilité. Pour utiliser le résultat de régression, on doit choisir un seuil pour avoir les prédictions.

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0 771 208
##          1  65 335
##                                         
##                Accuracy : 0.802         
##                  95% CI : (0.78, 0.8228)
##     No Information Rate : 0.6062        
##     P-Value [Acc > NIR] : < 2.2e-16     
##                                         
##                   Kappa : 0.5653        
##  Mcnemar's Test P-Value : < 2.2e-16     
##                                         
##             Sensitivity : 0.9222        
##             Specificity : 0.6169        
##          Pos Pred Value : 0.7875        
##          Neg Pred Value : 0.8375        
##              Prevalence : 0.6062        
##          Detection Rate : 0.5591        
##    Detection Prevalence : 0.7099        
##       Balanced Accuracy : 0.7696        
##                                         
##        'Positive' Class : 0             
##

7 kNN

7.1 Normalisation

On peut normaliser les valeurs à l’aide la fonction suivante :

Ainsi toutes les variables prennent des valeurs entre 0 à 1 :

7.2 Création de partition

Pour tester l’algorithme, on répartit les données en deux bases : base d’apprentissage et base de test.

7.3 Prédiction

On peut faire la prédiction des classes de la base de test à l’aide la fonction knn du package class. On peut choisir dans un premier temps k=5.

ou utiliser la fonction confusionMatrix qui permet de calculer automatiquement certains caractéristiques :

Classification binaire