Durée: 2 jours

1 Préambule

La qualité de données est un sujet important lié à plusieurs projets d’actualités en assurance, comme:

  • Qualité de données sous Solvabilité 2
  • Contrats d’assurance vie non-réglés
  • Projet FVA (Fichier des Véhicules Assurés)
  • FICOVIE (Fichier des COntrats d’assurance VIE)

Cette formation vous propose des techniques concrètes pour la mise en place un processus de contrôle de la qualité des données, une détection automatisée, jusqu’à la résolution de certains dysfonctionnements.

2 Objectifs

  • Comprendre différents types d’anomalies et de risques liés à la qualité des données
  • Utiliser des techniques data science pour contrôler la qualité des données
  • Comment le machine learning peut aider à prédire la qualité des données
  • Comment contrôler automatiquement la qualité des données

Points forts

  • Retour d’expériences sur des applications concrètes
  • Manipulation d’une base de données utilisée en assurance

Comment?

  • Etude de cas
  • Cas pratiques avec R

Quels sont les pré-requis?

Aucun. Cependant la connaissance du langage de programmation R peut aider dans les cas pratiques.

3 Publics concernés

  • Actuaires et data scientists qui travaillent avec les données
  • Informaticiens qui gèrent les bases de données
  • Managers et directeurs qui sont responsables de la qualité des données

4 Programme

Objectifs et enjeux de la qualité des données

  • Types d’anonmalies (erreurs de saisies, fautes d’orthographe, erreurs intentionnelles, défaillance du système, etc.)
  • Différents types de risques et d’impacts financiers

Bonnes pratiques et organisation des données

  • Comment mieux organisation les fichiers
  • Comment organiser les données
  • Types de fichiers et de données

Principes de traitements d’anomalies

  • Comment explorer les données pour détecter les valeurs aberrantes
  • Comment traiter les anomalies des variables numériques
  • Comment traiter les anomalies des variables catégoriques
  • Comment traiter les anomalies des variables textuelles
    • identifier des clients doublons
    • identifier les anomalies des adresses (un petit exemple)
    • incohérences par rapport aux clauses des contrats
  • Calculer un score de vraisemblance

Techniques de data science mises en oeuvre

  • Découvrir comment les techniques de data science permettent de contrôler la qualité des données
    • Webscraping
    • Text-mining
    • Machine learning
    • Analyse des séries temporelles
  • Comment les méthodes clustering permettent de détecter des valeurs aberrantes
  • Comment les méthodes classifications permettent de calculer un score de qualité

Cas pratiques

  • Vérification textuelle (noms clients, adresses, clauses contrats, et autres saisies manuelles de textes)
  • Incohérence de catégories
  • Règles de calculs déterministes
  • Règles multi-critères
  • Segmentation des indicateurs multiples

5 Informations pratiques

Durée: 2 jours

Comment se déroule la formation ?

les apports théoriques sont complétés par des exercices pratiques sous R et Rstudio.

Quels sont les pré-requis ?

Aucun.

Y a-t-il besoin d’ordinateurs ?

Ordinateur avec R et Rstudio installés

Contacter le formateur par mail


Site internet de Kezhan SHI