2 jours

1 Objectif

A l’heure où le secteur de l’assurance brasse de gros volumes de données, associés aux algorithmes de plus en plus sophistiqués, et transforme les métiers et bouscule les fondamentaux de l’assurance. Cette formation permet de démystifier le Big Data, par la pratique des techniques de Data Science avec R.

  • Introduction à R et ses nombreux packages
  • Utiliser R pour l’ensemble de la chaîne de traitements des données
  • Discuster des cas d’usage réels avec R

Points forts

  • Utiliser R pour des cas pratiques
  • Comprendre le processus complet de traitement des données
  • Astuces et bonnes pratiques concernant l’utilisation des modèles dans une entreprise d’assurance

2 Public concerné

À toute personne susceptible d’intervenir dans l’élaboration et la mise en oeuvre d’une stratégie Big Data, et ce dans les domaines : produits, marketing, distribution et tarification. Ainsi qu’à toute personne désireuse de se familiariser avec ce sujet en devenir.

3 Programme

Introduction à la programmation avec R

  • Installation de R et de RStudio
  • Présentation de RStudio

Collecte des données web avec R

  • Import des données
  • Bases de la structure des pages web
  • Scraping des données html avec R
  • Cas d’application : analyse des avis et notations des produits
  • Import et analyse des données de twitter
  • Construction d’un outil de veille pour les produits ou les services

Nettoyage de données html et textes

  • Text mining
  • Manipulation des corpus avec R
  • Exploitation des document term matrix (DTM)
  • Association des mots
  • Visualisation des nuages de mots

Machine learning avec R

  • Analyse prédictive des mails indésirables
  • Pratique de différents algorithmes avec R
  • Application d’un arbre de classification
  • Application de SVM (Support Vector Machine)
  • Application de la régression logistique
  • Agrégation de modèles
  • Comparaison des différents algorithmes

Performance des algorithmes

  • Matrice de confusion et taux d’erreur
  • Courbe ROC et AUC
  • Coefficient de Gini

Conclusions

  • Intérêt de l’analyse des données textes
  • Intérêt du processus d’analyse prédictive

4 Informations pratiques

Durée: 2 jours

Pour obtenir quoi ?

Une compréhension globale de la problématique Big Data et des outils disponibles à ce jour nécessaires à son traitement.

Comment ?

Des exemples pratiques animeront chaque étape du processus de traitement du Big Data, et complèteront la définition et les perspectives de ce nouveau métier.

Quels sont les pré-requis ?

Aucun en particulier. L’intérêt et l’utilisation des outils numériques sont cependant fortement recommandés. Chaque participant se munira d’un ordinateur portable pour les travaux pratiques.

Contacter le formateur par mail


Site internet de Kezhan SHI