Les différents types de transformations des données sont multiples. Certaines transformations mathématiques permettent de construire un modèle prédictif plus robuste par la suite:
D’autres transformations des données facilitent la manipulation des données comme le “remodelage” des données entre format long et large:
La centrer-réduction consiste à transformer une série de données numériques en une autre série avec une moyenne nulle et une variance égale à 1.
En effet, il est important de normer les données, car cela affecte directement la distance entre deux observations.
Si deux variables ont des ordres de grandeur différents, la variable qui a des valeurs plus grandes aura une prépondérance plus grande dans la mesure de la distance.
La centrer-réduction permet ainsi de faire en sorte que toutes les variables ont le même poids dans le calcul de la distance.
Il s’agit de normaliser toutes les valeurs d’une variable en une série de valeures entre 0 et 1.
Variables catégoriques
Variables numériques
Regroupement ou tranches