1 Introduction

Les sites d’avis de consommateurs recueillent des messages précieux venant des clients et peuvent être utilisé pour mieux comprendre les besoins des clients. Les données ont été récupérées sur le site d’opinions assurance, et la base de données comprend les variables suivantes :

Les données ont été récupérées sur le site d’opinions assurance, et la base de données comprend les variables suivantes :

  • Date et heure de l’avis
  • Note globale qui est la moyenne des notes selon 4 critères qui sont maintenant récupérées aussi:
  • Prix: note sur le prix
  • Service: note sur le service client
  • Garantie: note sur les garanties
  • Satisfaction: note sur la satisfaction générale
  • Commentaire: l’avis du client rédigé en français, à noter qu’il y a parfois des fautes d’orthographe, ce qui nécessiterait des nettoyages à la main.

Différentes analyses sont réalisées sur ces données:

2 Stat globale

On peut compter le nombre de commentaires par année, et par assureur.

On peut aussi visualiser le nombre de charactères par commentaire. On remarque le nombre de charactères par commentaire augmente au cours du temps, alors que la note moyenne baisse (cf la visualisation des notes clients)

3 Fréquence des mots

3.1 Nettoyage

Certains “mots vides” doivent être nettoyés. Des erreurs d’orthographe doivent aussi être corrigées.

3.2 Fréquence globale

3.3 Fréquence annuelle

3.4 Fréquence par assureur

3.5 TF-IDF

4 Bigramme

4.1 Fréquence globale

4.2 TF

4.3 TF-IDF

4.4 Association bigramme

On peut aussi regarder les associations de bigrammes, par exemple, ce que disent les gens après le mot “très”:

5 Trigramme

5.1 Fréquence globale

5.2 TF

Copyright © 2016 Blog de Kezhan Shi