Informations

Il s’agit d’un extrait de la formation. Cette formation peut se faire en présentiel ou à distance. Pour en savoir plus, merci de me contacter.

1 Introduction

Quand on parle de data science appliquée à la détection de fraudes, on pense très souvent à la classification binaire: un algorithme super intelligent serait capable de détecter les dossiers frauduleux. Ainsi, les statisticiens cherchent souvent à développer un algorithme sophistiqué pour construire un tel modèle de prédiction. Le résultat livré aux gestionnaires est en principe simple: pour chaque dossier étudié, un scoring qui représente la probabilité qu’un dossier puisse être frauduleux serait donné par le modèle. Le résultat délivré paraît simple: un seul scoring pour résumer la probabilité de fraude.

Cependant, ces résultats ne sont pas toujours efficaces dans la réalité de la lutte anti-fraude. En effet, de manière très concrète, les gestionnaires doivent étudier le dossier pour comprendre quels sont les éléments qui ne sont pas en règle et constituer ainsi des preuves de la fraude.

Cela met en évidence un aspect que les data scienstists peuvent négliger: la collaboration avec les gestionnaires et les contrôleurs. Si le modèle n’arrive pas à expliquer pourquoi un dossier est considéré comme frauduleux, c’est un algorithme inutile.

2 Première piste de réflexion

Dans un premier temps, on va suivre la piste de réflexion suivante:

En effet, en pratique, une approche systémique partant de la définition de la fraude pour trouver les fraudeurs, puis les montants à récupérer est souvent utilisée.

2.1 Définir les fraudes

Discussions sur des cas de fraudes rencontrées

Constats

  • Types de fraudes
    • Fraudes à la souscription
    • Fraudes à l’indemnisation
  • Types de fraudeurs
    • Assurés
    • Intermédiaires d’assurances
    • Professionnels et partenaires
  • Modes opératoires divers
  • Natures de fraudes
    • Tentatives (parfois les fraudeurs eux-mêmes ne savent pas s’ils vont vraiment frauder)
    • Fraude avérée (notion juridique avec jusqu’à 5 ans d’emprisonnement et une amende pouvant aller jusqu’à 1 875 000€)
    • Anomalies
    • Cas ambigus (remboursement systématique des factures de lunettes au seuil de remboursement)

Conclusions

La diversité des fraudes fait qu’on n’arrive pas à bien définir les caractéristiques des fraudes ou des fraudeurs. Il est illusoire de penser qu’un seul type de modèle permettrait de détecter tous les cas de fraude.

2.2 Définir les moyens de détection

Situation actuelle des entreprises

  • Découvrir un cas de fraude par hasard
  • Utiliser les connaissances des gestionnaires en examinant les dossiers
  • Contrôle aléatoire (ou ciblé) des dossiers de sinistres

Propositions machine learning

En effet, si un seul modèle pour détecter tous les cas de fraude ne peut exister, nous pouvons cependant construire pour un type de fraude donné un modèle donné. Et ce modèle pourra aussi nous donner l’estimation du coût de la fraude.

  • Détection binaire
  • Estimation des coûts

Cependant on doit aussi prendre en compte les frais dépensés pour la gestion et la lutte anti-fraude.

Conclusion

Un modèle de scoring ne semble pas suffisant pour la lutte anti-fraude car on doit prendre en compte d’autres postes de coûts.

2.3 Définir les objectifs

  • Mettre en place des actions de lutte anti-fraude
  • Récupérer l’argent
  • Calculer la rentabilité ou sanctionner les fraudes
  • Prioriser

On se rend compte que les objectifs definis autour de la notion de récupérer l’argent ne sont pas robustes, car les fraudeurs auront déjà effectués plusieurs fraudes s’ils n’y a pas eu de détection avant. En effet, un élément important est le temps de réaction. Plus on agit tôt, moins les fraudeurs ont le temps de commettre l’infraction.

Conclusion

Récupérer l’argent des fraudes après coup, est sans doute trop tard et n’est pas un objectif efficace pour la lutte anti-fraude.

2.4 Conclusions de la première piste

Nous voyons que la première piste de réflexion n’est pas suffisante: - Il y a un problème de définition des fraudes ou des fraudeurs. - Sur les moyens utilisés, le modèle de scoring n’est pas satisfaisant. Un modèle utile devrait pouvoir expliquer les variables qui ont mis en évidence les fraudes. Aussi, un modèle utile devrait quantifier les impacts financiers. - Sur la définition des objectitfs, il y a un problème de temporalité, car on doit agir plus vite que les fraudeurs

3 Seconde piste de réflexion

Comme pour beaucoup de projets,il est important de se poser la question sur les objectifs. Très souvent on se rend compte que la première question qui vient en tête n’est pas forcément la bonne. Mais malheureusement, on cherche souvent à résoudre la première question qu’on s’est posé, plutôt que de chercher à changer de question.

On parle souvent de “think out of the box”. Dans certains contextes, je pense qu’il peut s’agir de savoir changer de questions.

Inspirée par le livre de Simon Sinek, Start With Why, dans la deuxième partie, nous allons considérer la piste de réflexion suivante: pourquoi, comment et quoi.

La seconde piste de réflexion est détaillée lors de la formation.

Informations

Il s’agit d’un extrait de la formation. Cette formation peut se faire en présentiel ou à distance. Pour en savoir plus, merci de me contacter.