Quand on parle de data science appliquée à la détection de fraudes, on pense très souvent à la classification binaire: un algorithme super intelligent serait capable de détecter les dossiers frauduleux. Ainsi, les statisticiens cherchent souvent à développer un algorithme sophistiqué pour construire un tel modèle de prédiction. Le résultat livré aux gestionnaires est en principe simple: pour chaque dossier étudié, un scoring qui représente la probabilité qu’un dossier puisse être frauduleux serait donné par le modèle. Le résultat délivré paraît simple: un seul scoring pour résumer la probabilité de fraude.
Cependant, ces résultats ne sont pas toujours efficaces dans la réalité de la lutte anti-fraude. En effet, de manière très concrète, les gestionnaires doivent étudier le dossier pour comprendre quels sont les éléments qui ne sont pas en règle et constituer ainsi des preuves de la fraude.
Cela met en évidence un aspect que les data scienstists peuvent négliger: la collaboration avec les gestionnaires et les contrôleurs. Si le modèle n’arrive pas à expliquer pourquoi un dossier est considéré comme frauduleux, c’est un algorithme inutile.
Dans un premier temps, on va suivre la piste de réflexion suivante:
En effet, en pratique, une approche systémique partant de la définition de la fraude pour trouver les fraudeurs, puis les montants à récupérer est souvent utilisée.
Discussions sur des cas de fraudes rencontrées
Constats
Conclusions
La diversité des fraudes fait qu’on n’arrive pas à bien définir les caractéristiques des fraudes ou des fraudeurs. Il est illusoire de penser qu’un seul type de modèle permettrait de détecter tous les cas de fraude.
Situation actuelle des entreprises
Propositions machine learning
En effet, si un seul modèle pour détecter tous les cas de fraude ne peut exister, nous pouvons cependant construire pour un type de fraude donné un modèle donné. Et ce modèle pourra aussi nous donner l’estimation du coût de la fraude.
Cependant on doit aussi prendre en compte les frais dépensés pour la gestion et la lutte anti-fraude.
Conclusion
Un modèle de scoring ne semble pas suffisant pour la lutte anti-fraude car on doit prendre en compte d’autres postes de coûts.
On se rend compte que les objectifs definis autour de la notion de récupérer l’argent ne sont pas robustes, car les fraudeurs auront déjà effectués plusieurs fraudes s’ils n’y a pas eu de détection avant. En effet, un élément important est le temps de réaction. Plus on agit tôt, moins les fraudeurs ont le temps de commettre l’infraction.
Conclusion
Récupérer l’argent des fraudes après coup, est sans doute trop tard et n’est pas un objectif efficace pour la lutte anti-fraude.
Nous voyons que la première piste de réflexion n’est pas suffisante: - Il y a un problème de définition des fraudes ou des fraudeurs. - Sur les moyens utilisés, le modèle de scoring n’est pas satisfaisant. Un modèle utile devrait pouvoir expliquer les variables qui ont mis en évidence les fraudes. Aussi, un modèle utile devrait quantifier les impacts financiers. - Sur la définition des objectitfs, il y a un problème de temporalité, car on doit agir plus vite que les fraudeurs
Comme pour beaucoup de projets,il est important de se poser la question sur les objectifs. Très souvent on se rend compte que la première question qui vient en tête n’est pas forcément la bonne. Mais malheureusement, on cherche souvent à résoudre la première question qu’on s’est posé, plutôt que de chercher à changer de question.
On parle souvent de “think out of the box”. Dans certains contextes, je pense qu’il peut s’agir de savoir changer de questions.
Inspirée par le livre de Simon Sinek, Start With Why, dans la deuxième partie, nous allons considérer la piste de réflexion suivante: pourquoi, comment et quoi.
La seconde piste de réflexion est détaillée lors de la formation.