Dans un premier temps, on va créer des graphiques pour représenter les proportions des différentes modalités des variables.
On va prendre l’exemple des catégories de routes (dans la base lieux
), pour visualiser le nombre d’accidents en fonction des différentes catégories de routes.
On peut d’abord calculer le nombre d’accidents par type de routes.
Puis on peut utiliser ggplot2
pour créer une barre empilée.
Le camembert est très souvent utilisé pour représenter les proportions d’une variable selon les modalités présentes.
Pour avoir le camembert, il suffit de changer de système de coordonnées:
Pour faciliter l’affichage du pourcentage, on va d’abord calculer les pourcentages dans la table des données.
A partir des barres empilées, il suffit de changer le système des coordonnées en coord_polar
pour créer un camembert.
width=1
.Pour faciliter la lecture, on peut afficher les pourcentages de chaque part.
On peut utiliser geom_text
. Comme on voit dans le camembert suivant, les textes se chevauchent.
Pour résoudre le problème, on peut utiliser le package ggrepel
.
Dans un camembert comme montre l’exemple précédent, on ne peut pas afficher plusieurs variables. Si veut afficher les sous-catégories d’une catégorie donnée, on peut utiliser un sunburst.
Dans l’exemple suivant, on choisit de représenter le situation de l’accident, avec la variable situ
dans la base lieux
.
Pour la réalisation du sunburst précédent, on doit d’abord combiner plusieurs bases de données.
Ensuite, on doit regrouper les données en comptant le nombre d’occurrences pour les caractéristiques qu’on souhaite étudier:
On peut utiliser le sunburst de la librairerie D3.js.
En explorant le sunburst, on peut se poser la question suivante: on peut arriver à visualiser et afficher le sous pourcentage des sous-catégories (situation de l’accident) en fonction d’une catégorie (type de route); mais on n’arrive pas à visualiser la différences des proportions des situations de l’accident en fonction des types de voie.
Pour cela, on va utiliser les graphiques qui permettent de faire des comparaisons, dans la partie suivante.
Le treemap permet de voir les proportions et la hiérarchie des catégories. En particulier, un treemap interactif permet d’explorer efficacement les données catégoriques.
Dans un treemap, on peut souvent représenter une variable avec la couleur des rectangles.
Dans l’exemple, on va utiliser la couleur pour représenter la gravité des accidents. Ainsi, dans un premier temps, on doit choisir des valeurs pour représenter les différents niveaux de gravité. En entreprise, on a les montants des sinistres qui peuvent être représentés en couleur.
Le niveau de treemap peut être plus ou moins profond, dans l’exemple suivant, on va afficher: les catégories de routes catrc
, la situation des accidents situc
, l’intersection intc
et le niveau de gravité pour représenter la couleur.
Pour cela, on doit fusionner les différentes bases pour avoir ces informations.
On peut alors créer le treemap suivant, en précisant les différents paramètres dans treemap
On peut remarquer que quand il y a beaucoup de variables, les petites catégories deviennent difficilement visiblement, ainsi, on peut supprimer certaines petites catégories (ou les regrouper).
Dans le treemap suivant, on peut alors visualiser les proportions de manière globale, et plus détaillée en zoomant.
Par exemple, on peut représenter la proportion des types de trajets grâce à des pictogrammes en forme de voiture:
On peut également représenter le nombre d’accidents en fonction des niveaux de gravité des accidents et en fonction du sexe du conducteur.
Comme on a un certain nombre de variables dans la base, afin de mieux connaître, on peut créer une boucle pour afficher le même type de graphique.
Copyright © 2017 Blog de Kezhan Shi