Dans un article précédent, on a déjà discuté de la distance entre chaînes de caractères pour corriger des fautes d’orthographe.
On peut essayer de l’appliquer ici, entre ‘Gros Malhon’ et les plusieurs écritures possibles (plus quelques témoins pour la comparaison):
On peut voir ‘Mac Mahon’ est plus proche que ‘Grand Malland’ qui semble plus plausible, à l’oreille.
Justement, c’est plus proche, phonétiquement. On peut donc essayer de prendre en compte la prononciation pour le calcul de la distance.
L’idée est de nettoyer les textes que pour ne garder que des lettres qui se prononcent. Aussi, si certains sons sont proches à l’oreille, on peut les confondre: comme ‘on’ et ‘an’.
On peut avoir les distances suivantes:
Dans la saisie manuelle des informations, des erreurs d’orthographes sont nombreuses et leur nature peut être différente.
Quand les personnes essaient de transcrire phonétiquement, la distance calculée en fonction de la prononciation peut s’avérer utile.
Aussi, cette distance peut être utilisée dans la reconnaissance vocale.