Afin de facilier les analyses on peut nettoyer les bases de données au préalable.
Avant d’analyser les données, il est important de s’assurer de la bonne qualité des données.
Dans un premier temps, on doit corriger des valeurs aberrantes. L’exemple ci-dessous traite du cas des variables GPS (lat
et long
). En effet, dans certains cas, on a zéro comme valeur, or on sait que ce ne sont pas les coordonnées GSP en France. Ce sont sans doute des valeurs enregistrés par défaut.
Si nécessaire, on peut supprimer les valeurs manquantes dans une base de données.
On peut utiliser la fonction complete.cases
pour détecter si aucune valeur ne manque pour une observation donnée. Si elle est le cas, on peut garder cette observation.
La fonction d’import des données attribue un type de variable par défaut. Cependant, ce n’est pas toujours pertinent. Par exemple, on peut observer qu’il y a des catégories qui sont nommnées avec des entiers. Il serait plus pertinent de les considérer comme des facteurs ou caractères. En effet, si c’est une variable numérique, dans un résumé statistique, les valeurs comme moyenne, médiane, ou les différentes quantiles sont calculées, alors que celles-ci n’ont pas un sens réel.
Dans l’import des données, on a déjà vu qu’on pouvait préciser la nature des variables. On peut aussi changer la nature des variables après avoir importé.
Lorsqu’on crée de nouvelles variables, on peut aussi changer la classe des variables. Par exemple, on peut créer la variable annee
qui indique l’année de l’accident à partir de la variable Num_Acc
en prenant les 4 premiers chiffres. Ensuite, on peut le tranformer en numeric
.
Pour les caractéristiques temporelles, on peut créer les variables suivantes:
date
: date de l’acccident en format Date.mj
: mois et jour de l’accident (sans prendre en compte l’année)hms
: heure et minute de l’accident en format POSIXheure
: heure de l’accident en format numérique (on remarquera des anomalies sur la variable hrmn
: on n’a pas toujours 4 chiffres.)jsem
: jour de la semaine (on veillera à ordonner les jours de la semaine)On peut plusieurs façons de renommer:
recode
du package dplyr
Dans cette partie, on a uniquement fait des nettoyges et tranformations globaux. Dans la suite, pour les différentes visualisations à créer, on va devoir faire d’autres transformations.
Copyright © 2017 Blog de Kezhan Shi