1 Introduction

Dans la partie précédente, on a vu des graphiques pour comparer des variables. Quand on veut comparer les variables selon une variable continue, on arrive alors à une série temporelle. Dans cette partie, on a créer des graphiques pour visualiser l’évolution des variables au cours du temps.

On va voir les graphiques les plus classiques pour l’évolution:

  • Evolution au cours du temps des principaux départements
  • Evolution temporelle interactive pour mieux explorer les valeurs à différentes dates
  • La saisonnalité est une composante intéressante à explorer, et cela nous donne des informations complémentaires.

2 Evolution départements

Pour visualiser une évolution, le plus classique est le graphique à lignes.

  • On va choisir les 6 plus grands départements en termes de nombre d’accidents.
  • L’idée sera de visualiser l’évolution du nombre d’accident selon les différentes années.
  • Et on pourra ainsi les comparer entre eux.

2.1 Transformation des données

Dans un premier temps, on va créer une série de données dont les variables sont: département, année, nombre d’accidents.

  • On va d’abord sélectionner les départements suivants: c("750","130","920","930","940","690") (on peut enlever le zéro).
  • Ensuite, on doit créer une data.table qui permet de compter le nombre d’accidents dans ces départements, en fonction des années.

On voit qu’on peut améliroer le graphique, notamment en mettant la légende juste à côté des lignes afin d’améliorer la lisibilité.

2.2 Création du graphique

On va utiliser geom_line pour créer un graphique à ligne.

Afin d’optimiser la lecture, on peut placer la légende juste à côté des lignes.

  • On va afficher afficher les textes au bout de chaque ligne
  • Il est nécessaire de décaler la limite de l’axe x pour avoir de la place
  • Il faut aussi enlever la légende originale.

2.3 Evolution avec année/mois

L’évolution du nombre uniquement avec les années permet de donner la tendance globale. Parfois, on a besoin de plus de précisions. Ainsi, on peut essayer de donner les mois aussi.

Pour cela, on va créer une variable anneemois qui permet d’avoir un nombre continu pour représenter l’évolution temporelle avec une périodicité plus fine.

On peut alors créer un autre graphique à lignes.

Sur ce graphique, on peut dire qu’il est difficile de représenter la légende à côté des lignes, cela deviendrait illisibilité. Ainsi, on recense le besoin d’interactivité.

3 Graphique interactif

Lorsqu’on représente un grand nombre de points, il devient alors intéressant de créer un graphique interactif pour améliorer la lisibilité.

3.1 Plotly

Une méthode simple consiste à transformer un graphie ggplot en un graphique plotly.

  • Afin d’améliorer l’affichage de la valeur année/mois, on peut créer un texte qui permet de l’affiche selon le bon format.

Ainsi, on peut lire de façon interactive les valeurs. Les différentes fonctionnalités de plotly permettent également:

  • de zoomer pour avoir plus de détails là où les points sont denses.
  • d’afficher plusieurs variables (couleurs) pour comparer les valeurs de y, pour la même valeur x donnée
  • de sélectionner quelques couleurs pour uniquement se concentrer sur dessus.

3.2 Dygraphs

On peut aussi afficher toutes les valeurs journalières. Ce type de graphiques est souvent utilisé pour les séries temporelles, comme le cours d’une action.

  • Créer une série temporelle à l’aide de xts
  • Créer le graphique avec dygraphs
  • Le nombre affiché est le nombre moyen par jour (sur une période de 7 jours par défaut, il est possible de mettre à jour le paramètre)

4 Visualisation des périodicités

Comme on a pu remarquer précédemment, il y a des périodicités dans l’évolution des données. On va les analyser par la suite.

4.1 Mois

  • On peut visualiser le nombre en fonction des 12 mois de l’année

  • Ainsi, on peut remarquer les mois “creux” comme juillet août, sans doute dû aux vacances, ainsi, il y a moins de monde sur la route.
  • Pour mieux visualiser les niveaux de gravité, on peut les voir en proportion

  • On peut faire la même remarque comme lors de la création des graphiques de comparaison: on peut représenter à la fois le volume et le pourcentage.

4.2 Semaines

  • On fait de même pour les jours de la semaine

Ainsi, on voit qu’il y a nettement moins d’accidents le dimanche, et vendredi est le jour le plus accidenté.

4.3 Heures

On va continuer l’exploration de la périodicité, maintenant on va analyser le nombre d’accident au cours d’une journée.

  • On va prendre comme valeur l’heure de l’accident (sans les minutes)

On peut voir le graphique en fonction des jours de la semaine.

4.4 Grahique circulaire

Pour mieux se rendre compte de la périodicité de l’évolution, on peut créer un graphique circulaire.

  • On va créer une série de données avec les dates, heure.
  • On peut ensuite calculer les éléments statistiques suivants par heure: moyenne, minimum, maximum.
  • On peut alors créer le graphique circulaire avec le système de coordonnées polaires
  • On remarque qu’il faut également nettoyer légèrement la série de données en créant l’heure 24, qui reprend la valeur à l’heure 0. Ainsi, le cercle sera complet.
  • Sur le graphique, on peut afficher différents éléments statistiques: moyenne, maximum.
  • Afin d’améliorer la lisibilité, on peut fixer le minium de l’axe y (qui est le rayon du cercle)

On peut également voir la différence entre les différents jours

  • Pour cela, on doit introduire les jours de la semaines dans la série de données
  • On peut ensuite calculer la moyenne, selon l’heure et le jour de la semaine
  • Ensuite, on peut reprendre les mêmes étapes que pour le graphique précédent.

5 Pour aller plus loin

Pour les données au cours de la journée, on a choisi quelques éléments statistiques. Il serait intéressant de voir la distribution de façon plus détaillée. Cela fait l’objet de la prochaine partie: visualisation de la distribution.

Copyright © 2017 Blog de Kezhan Shi