2 jours

1 Préambule

Avez-vous des données textuelles (adresse, marque de véhicule, commentaires clients) qui ne sont pas de bonne qualité et rencontrez-vous des difficultés quant à l’exploitation de ces données? Certains essaient de corriger à la main: “bld” et “blvd”, c’est pareil que “boulevard”. Mais avez-vous oublié d’autres écritures potentielles comme “boulvd” ou “bd” ?

Savez-vous qu’il y a des techniques plus efficaces?

Plus généralement, les données textes sont souvent décrites comme du Dark Data dans les entreprises, car elles ne sont pas suffisamment exploitées et ne sont parfois simplement pas du tout exploitées. Pourtant ces données textuelles peuvent contenir des informations précieuses, qui peuvent améliorer la prise de décision.

2 Objectif

A l’issue de cette formation, vous allez apprendre à

  • extraire des informations à partir des documents html
  • corriger et segmenter les textes
  • nettoyer et intégrer les données textes

Points forts

  • Retour d’expériences sur des applications concrètes
  • Manipulation des bases de données utilisées en assurance

3 Public

  • À toute personne souhaitant analyser les textes et tirer des conclusions intéressantes, en particulier, on peut citer quelques exemples de directions:
  • Marketing pour la connaissance des clients
  • Actuariat pour l’amélioration de la qualité des données
  • Indemnisation pour la détection des fraudes

4 Programme

Source de données

  • Données internes
  • Reconnaissance optique de caractères
  • Données des sites d’avis
  • Manipulation des documents html
  • Technique de webscraping

Transformation des données textes

  • Manipulation des chaînes de caractères
  • Manipulation des expressions régulières
  • Construction de corpus
  • Matrice Documents-termes
  • TD IDF

Nettoyage des données textuelles

Machine learning

Visualisation

Cas d’application

  • Webscraping
  • Analyse des avis clients
  • Correction des fautes d’orthographe
  • Géocodage
  • Analyse du NPS

5 Informations pratiques

Durée: 2 jours

Pour obtenir quoi ?

  • Compétences de text mining et les cas d’applications.
  • Extraction d’informations des données textuelles
  • Construction d’indicateurs basés sur les textes

Comment ?

Les différentes techniques de collecte, de nettoyage et d’analyse de données seront illustrées avec des exemples pratiques, codés sous R.

Quels sont les pré-requis ?

Aucun en particulier. L’intérêt et l’utilisation des outils numériques sont cependant fortement recommandés. Chaque participant se munira d’un ordinateur portable pour les travaux pratiques.

Contacter le formateur par mail


Site internet de Kezhan SHI