Les data scientists doivent passer plus de 80% de leur temps à nettoyer leurs données. Les causes de la mauvaise qualité des données sont multiples. Quand la saisie est libre, les erreurs d’orthographe sont fréquentes. La correction de ces erreurs peut être chronophage. Le premier réflexe est souvent de repérer les erreurs commises et de les corriger à la main. Si pour une petite quantité d’erreurs, il semble rapide de corriger à la main, il n’est pas viable de le faire pour une grande quantité de données. Ainsi, il est souvent préférable d’adopter une solution automatisée dès que possible.
Prenons l’exemple des adresses non normalisées: on peut écrire “bld” pour “boulevard”. On peut repérer tous les “bld” et les corriger à la main. Mais le problème, c’est que certains écrivent “blvd” par exemple. Puis pour “avenue”, on peut trouver “av”, “ave”, “aven”, “avenu” et d’autres erreurs grossières.
On peut calculer la distance entre deux mots. Une façon de calculer la distance peut être la suivante:
Par exemple,
Pour automatiser la correction, on peut procéder aux étapes suivantes:
Imaginons le cas suivant:
On voit que selon les cas, on peut choisir le bon type de distance pour mieux traiter nos erreurs.
Si on n’a pas des données de référence, on peut faire une segmentation des mots.
Quand on doit retrouver les adresses normalisées à partir des adresses librement saisies, au lieu de repérer des caractéristiques à corriger à la main, on peut calculer les distance de façon globale, et choisir la référence en fonction des distances.
Cette méthode peut également être utilisée dans le géocodage des adresses.