1 Introduction

Afin de facilier les analyses on peut nettoyer les bases de données au préalable.

2 Correction des anomalies

Avant d’analyser les données, il est important de s’assurer de la bonne qualité des données.

2.1 Valeurs aberrantes

Dans un premier temps, on doit corriger des valeurs aberrantes. L’exemple ci-dessous traite du cas des variables GPS (lat et long). En effet, dans certains cas, on a zéro comme valeur, or on sait que ce ne sont pas les coordonnées GSP en France. Ce sont sans doute des valeurs enregistrés par défaut.

2.2 Valeurs manquantes

Si nécessaire, on peut supprimer les valeurs manquantes dans une base de données.

On peut utiliser la fonction complete.cases pour détecter si aucune valeur ne manque pour une observation donnée. Si elle est le cas, on peut garder cette observation.

3 Types de variables

La fonction d’import des données attribue un type de variable par défaut. Cependant, ce n’est pas toujours pertinent. Par exemple, on peut observer qu’il y a des catégories qui sont nommnées avec des entiers. Il serait plus pertinent de les considérer comme des facteurs ou caractères. En effet, si c’est une variable numérique, dans un résumé statistique, les valeurs comme moyenne, médiane, ou les différentes quantiles sont calculées, alors que celles-ci n’ont pas un sens réel.

3.1 Changement de types

Dans l’import des données, on a déjà vu qu’on pouvait préciser la nature des variables. On peut aussi changer la nature des variables après avoir importé.

Lorsqu’on crée de nouvelles variables, on peut aussi changer la classe des variables. Par exemple, on peut créer la variable annee qui indique l’année de l’accident à partir de la variable Num_Acc en prenant les 4 premiers chiffres. Ensuite, on peut le tranformer en numeric.

3.2 Variables temporelles

Pour les caractéristiques temporelles, on peut créer les variables suivantes:

  • date: date de l’acccident en format Date.
  • mj: mois et jour de l’accident (sans prendre en compte l’année)
  • hms: heure et minute de l’accident en format POSIX
  • heure: heure de l’accident en format numérique (on remarquera des anomalies sur la variable hrmn: on n’a pas toujours 4 chiffres.)
  • jsem: jour de la semaine (on veillera à ordonner les jours de la semaine)

4 Renommer les modalités

On peut plusieurs façons de renommer:

  • il est préférable de créer une autre variable
  • on peut sélectionner les observations avec une certaine modalité et renommer
  • on peut utiliser la fonction recode du package dplyr

5 Transformations supplémentaires

Dans cette partie, on a uniquement fait des nettoyges et tranformations globaux. Dans la suite, pour les différentes visualisations à créer, on va devoir faire d’autres transformations.

Copyright © 2017 Blog de Kezhan Shi