Le secteur de l’assurance fait partie des secteurs qui brassent de gros volumes de données. Le big data, associé aux algorithmes de plus en plus sophistiqués, transforme les métiers et bouscule les fondamentaux de l’assurance. Comment la data-science se décline-t-elle aujourd’hui dans la chaîne de valeur assurance : création de produits individualisés, prévention des risques, indemnisation des sinistres, lutte contre la fraude.

Ce webinaire tente d’apporter des éléments de réponses. Pour approfondir, vous pouvez participer aux formations suivantes:

J’ai rédigé les réponses aux questions que vous avez posées. N’hésitez pas poser d’autres questions dans le fil de discussion en bas.

Questions réponses

Selon vous, quel est le sujet de data science qui intéresse particulièrement les assureurs en ce moment ?

Globalement, la data science intervient comme un outil de support au métier de l’assurance. En ce sens, la data science ne devrait pas créer des sujets intéressants pour les assureurs, mais ce sont plutôt les sujets qui préoccupent les assureurs qu’on essaie de traiter avec la data science.

Voici quelques sujets d’actualités :

De façon générale, il y a d’autres sujets qui ne sont pas nouveaux, mais avec l’enrichissement des données et l’accès facilité aux données externes, les sujets suivants redeviennent d’actualité:

Quelles sont les applications du text-mining dans votre domaine ?

Comme montré dans l’exemple pendant le webinaire, on peut transformer les textes en une matrice de caractéristiques (feature engineering), et on peut alors appliquer des algorithmes classiques.

Plus généralement, on peut parler du NLP (Natural Language Processing), et on peut citer les techniques de text classification, qui nous permettent d’analyser plusieurs documents envoyés par les clients et de les classifier automatiquement, et d’extraire les données pertinentes dans ces documents.

L’utilisation de chatbots peut également se révéler intéressante, car elle permet d’automatiser également la partie relationnelle du métier.

Quel est le ROI d’application de machine learning sur les cas concrets, comme la lutte anti-fraude ou la détermination de valeur client ?

En effet, pour tous les projets le ROI est important. A mon avis, on doit créer et tester des MVP (Minimum Viable Product ou Produit Minimum Viable) avant de faire des investissements lourds. En pratique, il n’est pas toujours facile de mesurer précisément le ROI.

Par exemple, la valeur client est une notion complexe. Si elle est bien modélisée et calculée, on peut l’utiliser pour sélectionner les clients qui devraient générer les bénéfices futurs les plus importants. Ainsi, le ROI réel n’est pas mesurable à court terme.

En revanche, pour la détection de fraude, le ROI est beaucoup plus facile à mesurer. En effet, plusieurs impacts financiers sont immédiats:

Pour les deux premiers points, à l’aide des méthodes de data science, on peut rentabiliser les investissements en moins d’un an, grâce à deux aspects:

Concrètement, on peut prendre l’exemple de la détection de signatures falsifiées. En théorie, la détection n’est pas difficile en soi. On peut le faire manuellement: il suffit de sortir les documents dont le signataire est le même, ensuite, le gestionnaire va regarder et analyser les signatures de tous les documents. Parfois, il va trouver des signatures falsifiées (des imitations), parfois, il peut trouver des signatures qui sont exactement les mêmes (ce qui veut dire qu’elle sont été copiées collées).

Le gestionnaire peut le faire pour quelques dossiers, mais pas pour des milliers, voire des millions de documents. Etant donné que le nombre de cas frauduleux est faible, le ROI serait négatif. Maintenant, si un algorithme est construit pour faire ce travail, il est alors possible de trouver tous les cas frauduleux.

Ces progrès sont similaires aux changements qui ont eu lieu avec l’automatisation de la chaîne de production en construction automobile; aujourd’hui, avec les techniques de stockage de données, et les méthodes de machine learning ou de deep learning, il devient possible d’automatiser certains processus (comme la gestion des fraudes) en assurance qui étaient réalisés auparavant par les gestionnaires. On peut ainsi avoir un processus industrialisé qui comporte moins d’erreurs humaines, plus d’efficacité et de précision, avec un coût final moindre.

Comment jugez-vous qu’un modèle est trop compliqué pour être appliqué en production ? (question d’un data scientist)

Plusieurs contraintes doivent être prises en compte:

Mais concernant la mise en production, je ne partirais pas des modèles pour prendre la décision, je regarderais plutôt si les résultats sont viables. En général, c’est possible de mettre en production des résultats issus de modèles simples

Les techniques d’audit reposent habituellement sur des sondages. Ne faut-il pas désormais passer à des revues complètes de portefeuilles ou bases de données ? (question d’un directeur audit interne)

Selon mon expérience, le fait que l’audit, ou le contrôle se basent sur des sondages, c’est parce qu’on n’a pas le temps de faire l’analyse pour tout le portefeuille. Ainsi, si on arrive à automatiser le processus de contrôle, ou d’audit, on peut en effet passer à des revues complètes.

En pratique, il faudrait examiner chaque étape d’audit et de contrôle, et automatiser seulement ensuite. Selon les étapes de contrôles, le processus d’automatisation est plus ou moins complexe.

L’une des étapes d’audit qui nécessite des techniques d’analyse de données, c’est le contrôle des documents, plusieurs techniques peuvent être utiles:

Si vous avez des étapes d’audit plus précises à automatiser, on pourra en parler.

Le problème de “boîte noire” a-t-il un impact sur l’aspect métier en assurance ? (question d’un étudiant data scientist)

Par “boîte noire”, on veut souvent parler de la difficulté à expliquer les résultats. Évidemment, de façon générale, si on n’arrive pas à expliquer les résultats, dans certaines situations, les résultats sont inutilisables, comme par exemple en détection de fraude.

Mais j’ai aussi remarqué qu’on dit parfois qu’un algorithme est une boîte noire, non pas parce qu’on ne sait pas expliquer les résultats, mais parce qu’on on n’en connaît pas le principe.

On peut prendre un exemple simple: la division euclidienne. Presque tout le monde sait comment faire la division euclidienne à la main. Mais avec la calculatrice, c’est plus rapide. Ainsi, personne ne dira que la calculatrice est une boîte noire pour la division euclidienne.

En revanche, quand il s’agit du calcul de la racine carrée, certains n’ont aucune idée de la manière dont le calcul peut être fait à la main. Ainsi, la calculatrice pourrait paraître comme une boîte noire pour ces personnes.

Pour revenir aux algorithmes de machine learning, le principe de tous les algorithmes est connu, et établi par des chercheurs. Si vous ne connaissez pas comment fonctionnent des algorithmes, il ne faut pas pour autant dire que c’est une boîte noire quand vous les utilisez (un peu comme quand vous utilisez une calculatrice pour les racines carrées).

Les calculs complexes effectués par les modèles sur les données sont vus comme une boîte noire car on n’a pas une relation simple entre les données d’entrée, et les résultats de sortie. Dans ce cas, un simple arbre de décision peut être vu comme une boîte noire, et encore plus pour une Forêt aléatoire. Cependant, il ne faut pas oublier que le principe de calcul est simple, et tous les calculs effectués sont auditables en théorie.

Pourtant ce sont de simples règles qui sont utilisées dans un arbre de décision, et pour une forêt aléatoire, c’est un ensemble d’arbres de décision, construit sur des échantillons de données et de variables explicatives (au lieu de prendre la totalité pour un arbre simple) qui est utilisé.

Parfois encore, certains utilisent le terme de “boîte noire” pour dire qu’ils n’ont pas confiance dans les résultats qui sont produits par ces algorithmes. Là aussi, il y a une différence entre expliquer les résultats de façon explicite, et valider les résultats. Pour ce dernier on peut utiliser la validation croisée.

Pour l’interprétabilité des résultats en sortie des algorithmes, je vous invite à lire cet article: “Why Should I Trust You?”: Explaining the Predictions of Any Classifier, à l’origine de Local Interpretable Model-agnostic Explanations ou LIME.

Est-ce que la data science a tendance à complexifier les modèles ? (question d’un manager connaissance client en assurance)

La data science est un outil. Comme tous les outils, ils font ce qu’on leur demandent. Ainsi, la question pourrait plus être: est-ce que les gens ont tendance à utiliser la data science pour complexer les modèles?

J’aurais tendance à dire que ceux qui ne connaissent pas bien le principe d’utilisation des outils, et les objectifs des modèles ont tendance à complexifier des modèles, ce qui devient alors une sorte de bouclier en cas de questions.

Et les dialogues deviennent:

En pratique, je pense qu’il faut penser la solution à partir de la problématique:

Lors de la construction de la solution, il faut aussi faire au plus simple. La décision d’investir dans une solution plus complexe ou non dépendra du ROI. Pour reprendre l’exemple de la valeur client, si on veut prendre en compte la résiliation de façon globale, on n’a pas besoin de modèle individualisé. Le modèle est simple, mais pas suffisamment précis pour optimiser les gains au niveau individuel.

Quelle est la principale différence entre le data mining et la data science ? Comment savez-vous qu’un assuré a fraudé dans le domaine des assurances? (question d’un étudiant data scientist)

En ce moment, il y a beaucoup de débats sur les définitions de différents termes tels que: data mining, machine learning, data science, intelligence artificielle, modèle prédictif, big data.

Il y a une réponse vue sur internet que j’aime bien:

Pour la deuxième question, c’est une question qui a une importance opérationnelle primordiale. En effet, avec l’analyse des données, on peut seulement avoir des soupçons de fraude, et ensuite, c’est la travail des juristes et des avocats pour savoir si l’assuré a vraiment fraudé.

Pour la comparaison de modèles, quels sont les indicateurs les plus pertinents et les plus utilisés ? (question d’un alternant chez Allianz)

A mon avis, il faudrait choisir l’indicateur en fonction du problème à résoudre. Ensuite cet indicateur pourra ainsi aider à améliorer les modèles.

Les indicateurs ne sont donc pas là pour comparer les modèles, mais pour comparer les résultats en sortie des modèles. Les modèles sont donc optimisés pour ces indicateurs.

On peut citer les indicateurs les plus fréquents, selon les types de problèmes:

Mais il est important de relier ces indicateurs à la réalité opérationnelle. Par exemple, pour la détection de fraudes, on peut dire que c’est un problème de classification, et utiliser l’AUC pour mesurer la performance des modèles. Cependant si on ne peut pas traiter l’ensemble des cas frauduleux, il serait plus pertinent de fixer un seuil pour le nombre dossiers, et calculer le taux de précision pour les dossiers sélectionnés. Toutefois les dossiers n’ont pas tous le même impact financier, alors on devrait plutôt prendre en compte l’impact financier. Ainsi, on peut utiliser la somme des gains financiers pour mesurer la performance de ce problème de classification.

Dans un projet de data science comme dans tous les projets, les enjeux de ressources (humaines) comme de délai sont essentiels. Quel est pour vous le dimensionnement d’un équipe Data, en listant notamment les compétences nécessaires, ainsi que le temps de mise en œuvre (du moment où l’on pose la problématique jusqu’à la livraison d’un outil opérationnel), ou a minima d’un poc ? (question d’un directeur technique en assurances)

Je n’ai pas beaucoup d’expériences dans la gestion de gros projets, ou dans la gestion d’un nombre importants de personnes. Mais je peux vous répondre selon mon expérience à plusieurs points importants.

De façon générale, il faudrait définir le nombre de personnes à partir des problématiques, donc tout dépend des projets. Cela a l’air évident, mais cela veut dire qu’on connaît bien les problématiques et les solutions potentielles à explorer.

Source de l’image: https://imgs.xkcd.com/comics/tasks_2x.png

Concernant les compétences, il y a beaucoup de discussions sur internet à ce sujet, globalement, je les résumerais autour de trois axes :

Pour revenir au nombre de personnes nécessaires, si une personne a les trois compétences, elle pourrait gérer un projet seule:

Pour la gestion du projet plus concrètement,

Dans le cas des algorithmes de machine learning non supervisés, quelle sont les métriques que vous utilisez pour mesurer la performance/pertinence de vos résultats, en particulier en détection de fraudes ? (question d’un data scientist)

Il y a un mélange de plusieurs notions:

Existe-t-il des techniques de machines learning ou deep learning qui remplacent le calcul stochastique classique des IBNR ? (question d’un data scientist senior)

Comme tous les outils, les techniques de machine learning ou de deep learning résolvent des problèmes spécifiques et adaptés.

Ainsi je commencerai par identifier les problèmes:

Si vous avez juste un triangle de sinistres, à mon avis, vous ne pourrez pas utiliser des méthodes de machine learning car le volume de données n’est pas suffisant.

Ce serait un peu comme essayer de trouver une “bonne méthode” pour calibrer une loi statistique avec 5 points.

Pour une première tentative d’application, quelle est l’outil que vous suggéreriez à un débutant, ayant un budget limité ? (question d’un analyste senior en assurances)

Tout dépend de ce que vous connaissez déjà. Et il y a beaucoup de choses dans votre question:

Comment peut-on donner une explication du modèle dans les techniques black box tel que SVM/ Réseaux de neurones …? (question d’un data scientist)

La notion de “boîte noire” a été précédemment expliquée.

De façon intuitive et simpliste:

Comment justifiez-vous de la qualité de vos modèles dans un domaine qui ne supporte pas les risques ? (question d’un stagiaire data scientist en télécommunications)

Il faudrait préciser la nature du risque avant. S’il n’y a pas du tout de risque, pour moi, il n’y a pas besoin de modèle. Je travaille dans l’assurance, et c’est un métier de gestion de risques. Donc les risques sont partout, et on essaie de les maîtriser à plusieurs niveaux.

Je vois que vous êtes en télécommunications, je n’arrive pas à imaginer un exemple concret dans ce domaine.

A votre avis, pourquoi le comportement humain est-il si difficile à prédire ? (question d’un ingénieur data)

Parce que l’homme est un être sensible, et complexe, qui, en plus, vit dans un monde complexe, rempli d’autres hommes, complexes.

Avant d’aller plus loin, il faudrait définir un peu plus spécifiquement le terme “comportement humain”.

De façon générale, il faudrait analyser les questions de prédiction selon les angles suivants

D’après votre expérience, quel est le meilleur modèle pour détecter de la fraude (en non supervisé) , les nouveaux cas de fraudes ? (question d’un étudiant data scientist)

Les fraudes sont de plusieurs types, donc pour chaque type de fraude, les modèles sont différents. Et selon les données disponibles, les approches sont différentes ainsi que les modèles.

De façon générale, on ne doit pas forcément poser la question selon cet angle: quel est le meilleur modèle? A mon avis, la question qui a beaucoup plus de valeur c’est: quel est précisément mon problème, qu’est-ce que je cherche à faire? Ensuite, je teste un ensemble de modèles.

On peut citer quelques exemples de détection de fraudes avec des algorithmes d’apprentissage non-supervisé, qui nécessitent des techniques complexes et différentes:


Site internet de Kezhan SHI