Face aux différents résultats de sondages , basés sur un échantillon restreint de population, on peut se poser quelques questions, pour mieux interpréter les résultats:

  • Méthode d’estimation liée à l’évolution temporelle
  • Intervalle de confiance liée à la regression temporelle
  • Biais des instituts de sondages par rapport à l’échantillon de population interrogée
  • Intervalle de confiance pour chaque estimation (liée à l’échantillonage)
  • Evolution temporelle des intervalles de confiances des estimations pontuelles

1 Premier tour

Evolution des résultats de sondages

Pour les ésultats de différents sondages en fonction des dates, on peut ajouter l’intervalle de confiance de la régression (liée aux prédictions des différentes dates).

Résultats par institut de sondage

Vous pouvez cliquer pour sélectionner ou désélectionner certains instituts de sondages, vous verrez visuellement les écarts entre les eux.

On peut comparer deux principaux instituts de sondages.

Intervalles de confiance de chaque point

Comme chaque point est une estimation à partir d’un échantillon de personnes, on peut donner l’intervalle de confiance pour chaque point. On peut supposer que l’échantillon est iid. Ce point n’est pas du tout sûr en réalité, on peut le remarquer dans les écarts systématiques entre les instituts de sondages.

Visualisation des intervalles de confiances à 95% autour de chaque point. Comme il y a parfois plusieurs points à une même date, les points sont supervisés avec les intervalles de confiance. Mais vous pouvez zoomer pour mieux voir chaque point.

Intervalles de confiance 2

Comme à une même date, il peut y avoir plusieurs résultats de sondage, on peut nettoyer (pour n’avoir qu’un point par date) avant de les visualiser.

On peut améliorer le graphique en lissant les bornes des intervalles de confiance.

2 Second tour

2.1 Le Pen vs Macron

Résultats avec intervalles de confiance liés à la regression

Résultats par institut de sondage

Intervalles de confiance lies à l’estimation ponctuelle

2.2 Fillon vs Le Pen

Résultats avec intervalles de confiance liés à la regression

Résultats par institut de sondage

Intervalles de confiance pour les estimations ponctuelles

3 Formation

Voulez-vous savoir comment réaliser ce petit projet, je vous propose une formation à distance. Vous pouvez me contacter par mail. Vous pouvez également voir d’autres projets similaire:

Afin de réaliser ce petit projet, les différentes techniques mises en application sont:

  • Webscrapping
    • Connaissance de la structure des pages html
    • Manipulation des codes html
    • Manipulation des expressions régulières
  • Nettoyage de données
    • Manipulation des vecteurs et des data.frame
    • Fusion et sélection de données
  • Machine learning
    • Apprentissage supervisé
    • Régression
  • Visualisation des données
    • Utilisation du package ggplot2
    • Types de visualisation
    • Graphiques interactifs
    • Formattage des tables
  • Outil de production
    • Rmarkdown
    • htmlwidgets
    • Tableaux de bord

Copyright © 2016 Blog de Kezhan Shi