Comment analyser un sondage ?

Par Michel Vendrely

Descriptif : Activité d’une heure en classe de seconde, pour faire découvrir les fluctuations d’échantillons et utiliser la notion fourchette de sondage. Le but est d’inciter les élèves à repérer dans les sondages des médiats, la taille de l’échantillon et d’en faire bon usage.
Matériel : Chaque élève dispose de 10 pièces jaunes (par exemple des pièces de 1 centime d’euro), et d’une calculette. Le professeur dispose des fichiers Excel pour visualiser les productions des élèves par simulation.
Auteurs : Groupe de travail statistiques et probabilités de l’institut de recherche sur l’enseignement des mathématiques (I.R.E.M) de l’Université de Besançon.
Situation : Prenons 100 pièces bien équilibrée si on les posent sur le bureau après les avoir mélangées dans les mains, il est peu probable d’avoir autant de « pile » que de « face ». La fréquence de l’événement « face » fluctue dans l’intervalle [0,4 ; 0,6] dans plus de 95% des cas observés.
Prérequis : Statistiques en seconde.
Activités :

  • Construction par l’ensemble de la classe d’un intervalle de fluctuation.
    Fiche élève au format DOC
    Fiche élève au format PDF

    [spoiler show= »Voir l’activité avec les commentaires »]Situation : Jeu de pile ou face.
    Question aux élèves: Que veut dire :  j’ai une chance sur 2 d’avoir « pile » quand je lance une pièce bien équilibrée  ?
    Réponse d’un élève : « il faut lancer plusieurs fois la pièce et comparer le nombre de « pile » au nombre de lancés. »
    Précisons le vocabulaire :

    • a) Expérience aléatoire : l’élève lance une pièce de monnaie.
    • b) Événement : c’est « pile ».
    • c) Modèle mathématique : la pièce semble bien équilibrée, j’ai une chance sur 2 d’avoir « pile ».
    • d) Échantillon : l’élève étudie un échantillon de taille 100. Pour cela, il lance 100 fois la pièce, ou plus simplement il lance 10 fois dix pièces et compte le nombre de « pile ».

    L’élève complète le tableau.

    Jeux de 10 lancers 1 2 3 4 5 6 7 8 9 10 Total
    Nombre de « pile »
    • e) Intervalle de fluctuation : Sur le tableau, le professeur dessine un axe gradué entre 40% et 60%.
    40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

    Chaque élève dessine au tableau un carré au dessus de la graduation correspondant au nombre de « pile » qu’il a observé (Voir l’animation dans la feuille de calcul Excel)

    La classe empile ainsi 34 petits carrés qui constituent un diagramme permettant de visualiser l’intervalle de fluctuation des échantillons de taille 100. On remarque que la plupart des observations se trouvent entre 40% et 60%, On démontre que plus de 95% des fréquences observées se trouvent dans l’intervalle

      (n=100 étant la taille de l’échantillon et p=0,5 le modèle mathématique). Cet intervalle est appelé intervalle de fluctuation de plus de 95% des observations.

    • f) Simulation:

    Simulation simple avec les calculettes, :Simulation simple.

    Simuler, « c’est faire comme si ». C’est remplacer une pièce de monnaie réelle par un objet virtuel : une fonction. Pour simuler le lancer d’une pièce il faut utiliser le modèle mathématique et trouver une fonction qui donne (par exemple) 1 pour « pile » et 0 pour « face » avec une chance sur deux.

    Plusieurs méthodes sont possibles en utilisant la fonction random des calculettes.

    Cette fonction donne un nombre au hasard entre 0 et 1 et la probabilité pour que ce nombre soit compris entre a et b, (avec 0£ a£ b£ 1 ) est b-a.

    Donc il y a une chance sur 2 pour que le nombre observé soit compris entre 0 et 0,5.

    On fait manipuler les élèves :

    Dans la calculette Casio, dans le menu RUN, faire OPTN puis PROB puis Ran# et valider.

    L’élève obtient par exemple : 0.7924751342

    Le nombre obtenu est un nombre au hasard entre 0 et 1.

    Pour tester s’il est plus petit que 0,5 tapons la fonction Ran# £ 0.5

    Pour obtenir £ , dans la calculette Casio dans le menu RUN, faire PRGM puis REL puis £ et valider.

    Le nombre obtenu est 1 si Ran# £ 0.5 et 0 dans le cas contraire. Cette fonction simule le lancer d’une pièce.

    Nous dirons que la fonction Ran# £ 0.5 simule le jeu de « Pile-Face » en donnant 1 si c’est « Pile » et 0 si c’est « Face ».

    L’élève étudie un échantillon de taille 100. Pour cela, il exécute plusieurs fois la fonction et complète le tableau.

    Jeux de 10 lancers 1 2 3 4 5 6 7 8 9 10 Total
    Nombre de « pile »

    Chaque élève dessine au tableau un carré au dessus de la graduation correspondant au nombre de « pile » qu’il a observé. (Voir l’animation dans la feuille de calcul Excel)

    Pour aller plus vite : simulation en utilisant le menu « table » des calculettes.

    Pour avoir le nombre de « pile » dans un échantillon de 100 lancers simulés.

    La fonction Seq(fonction,X,a,b,d) donne une liste de valeur de la fonction pour X compris entre a et b avec un pas d. (Dans la calculette Casio utiliser le menu OPTN, faire LIST puis Seq.)

    Par exemple Seq(RAN#<0,5,X,1,100,1) renvoie une liste de 100 valeurs de {0 ; 1}qui constitue une simulation de 100 lancers de pièces.

    Par exemple : {0 ;1 ;0 ;0 ;1 ;1 ;1 ;1 ;1 ; 0 ;1 ;0 ;1 ;0 ;0 ;0 ;0 ;1 ;1 ;1 ;10 ;1 ;0 ;1;1 ….1}

    La fonction Sum de ce menu calcule la somme des valeurs de la liste, donc :
    Sum Seq(RAN#<0,5,X,1,100,1) compte le nombre de 1 dans la liste des 100 valeurs simulées par la fonction RAN#<0,5).

    Par exemple 45 si la liste compte 45 chiffres 1.

    Chaque élève construit un intervalle de fluctuation contenant 50 fréquences de 100 lancés de pièces en exécutant :
    Sum Seq(RAN#<0,5,X,1,100,1) et 50 fois EXE.

    Plus de 95% des fréquences de « pile » simulées dans les 50 échantillons de 100 lancers, se trouveront dans l’intervalle de fluctuation ]0,4 ; 0,6[

    Il place les 50 petits carrés correspondant aux 50 échantillons étudiés. Il compare son diagramme avec le diagramme du tableau .

     

    • g) Estimation :Nous avons vu que la fréquence observée f (nombre de « pile » divisé par 100) appartient dans plus de 95% des cas à l’intervalle

    , où p =0,5. L’écart entre f et p est donc dans plus de 95% des cas inférieur à 0,1, donc dans plus de 95% des échantillons observés, p=0,5 appartient à l’intervalle où f est la fréquence observée dans l’échantillon.

    Si on ne connaît pas p, on peut faire le pari que la fourchette de sondage : contient p.

    • h) Estimation de p: par une fourchette de sondage

    Plus de 95% des intervalles , centrés sur les fréquences f observées dans les échantillon de taille n et dont le rayon dépend de la taille n des l’échantillons contiennent p.

    • i) L’élève construit une fourchette de sondage: Il simule 100 lancés de pièce et dessine ensuite sur son graphique un intervalle centré sur la fréquence observée et de rayon 0,1. Il observe que p=0,5 est dans cet intervalle (dans plus de 95% des cas).
    • j) Activité à faire à la maison : repérer dans les média le résultat d’un sondage et la taille de l’échantillon utilisé, construire une fourchette de sondage et analyser les commentaires du journaliste.

    [/spoiler]

  • Exercices montrant l’importance des fourchettes de sondage
    Fiche d’exercices au format DOC ou au format DOC

    [spoiler show= »Voir les exercices avec les commentaires »]
    1. Les prochaines élections.
    Énoncé.
    Un institut de sondage veut estimer la proportion d’électeurs qui voteront pour Z à la prochaine élection .1°) Sur 900 personnes choisies au hasard, 540 déclarent voter pour Z. Construire un intervalle d’estimation de la proportion d’électeurs favorables à Z dans la population.Cet intervalle contient-il 0,5 ?Peut-on annoncer que Z sera élu ?

    2°) Le même institut cherche à connaître l’opinion des Français pour les présidentielles de 2007. Dans un échantillon de 1000 personnes, les réponses pour les trois partis suivants sont :

    U.M.P : 19,3% , P.S : 17,5% et F.N 13,9%

    a) Calculez les fourchettes de sondage estimant les proportions d’électeurs favorables à chacun de ces partis au sein de la population.

    b) Placez ces intervalles sur un axe gradué.

    c) Quelles sont les parties communes des intervalles.

    d) Quels pronostics possibles pouvez-vous faire pour ces élections ?

    Éléments de réponse.

    1°) L’écart entre f=540/900 et p est donc dans plus de 95% des cas inférieur à . Donc dans plus de 95% des échantillons observés, p appartient à l’intervalle où f est la fréquence observée dans l’échantillon. On peut faire le pari que l’intervalle contient p, ce qui permet d’affirmer sans trop de risque que Z sera élu car 0,5 n’est pas dans cet intervalle.

    2°)

    a) Donc dans plus de 95% des échantillons observés, p appartient à l’intervalle où f est la fréquence observée.

    Quand j’affirme que la véritable proportion des électeurs favorables à l’UMP se trouve dans l’intervalle

    j’ai 5% de chances de me tromper.

    Quand j’affirme que la véritable proportion des électeurs favorables au PS se trouve dans l’intervalle

    j’ai 5% de chances de me tromper.

    Quand j’affirme que la véritable proportion des électeurs favorables au FN se trouve dans l’intervalle

    j’ai 5% de chances de me tromper.

    b) Sur un axe gradué :

     

     

    c) En repérant la partie commune : ]0,16 ; 0,17[, nous voyons que les véritables proportions d’opinions favorables aux différents partis, peuvent se trouver entre 0,16 et 0,17 dans un ordre qui n’est pas prévisible avec les résultats du sondage.

    d) Conclusion : rien n’est joué.

    2. Pour y voir clair

    Énoncé

    Dans un lycée de 1 200 élèves, on veut estimer le nombre d’élèves portant des lunettes. On choisit au hasard 36 élèves et on constate que 12 d’entre eux portent des lunettes. Construire une fourchette de sondage pour estimer  la proportion d’élèves qui portent des lunettes dans le lycée. Que peut-on en conclure pour le nombre d’élèves cherché ?

     

    Éléments de réponse

    En affirmant que le nombre d’élèves qui portent des lunettes dans le lycée appartient à l’intervalle : on se trompe moins de 5 fois sur 100.

    En multipliant par 1200 les bornes de cet intervalle, on en déduit, sans trop de risque, que le nombre d’élèves qui portent des lunettes dans le lycée est compris entre 192 et 600.

     

    3. Les pois chiches dans la soupe.

    D’après J. Lubczanski, Bulletin APMEP n° 360.

    Énoncé

    Une soupe contient, en grande quantité, des pois chiches et des haricots blancs.

    On la mélange bien et on en prélève une louche, elle contient 42 pois chiches et 58 haricots. Construire une fourchette de sondage pour estimer la véritable proportion de pois chiches. Que peut-on dire de la composition de la soupe ?

     

    Éléments de réponse.

    On remarque que 42+58=100.

    On peut faire le pari que l’intervalle , contient la véritable proportion de poids chiches (avec un risque inférieur à 5%).

     

    4. Caractère génétique

    Énoncé

    On veut évaluer le nombre de Français porteurs d’un caractère génétique donné. On effectue une analyse sur 1 000 personnes choisies au hasard, et on observe que 384 personnes sont porteuses de ce caractère génétique. Évaluez par un intervalle le nombre de Français porteurs du caractère génétique sur une population de 60 millions de Français.

    Éléments de réponse

    On peut faire le pari que l’intervalle contient la véritable proportion de porteurs du caractère génétique (avec un risque inférieur à 5%). En multipliant par 60 millions on en déduit, sans trop de risque, que le nombre de porteurs du caractère génétique est compris entre 21 millions et 25 millions.

     

    5. Les poissons dans le lac

    Énoncé

    Un lac contient des goujons et des gardons. Le garde pêche voudrait savoir si les deux espèces sont à peu près en même quantité. Il pêche successivement 60 poissons en différents endroits du lac, en rejetant à l’eau chaque fois le poisson pêché. Il constate qu’il y a 20 goujons et 40 gardons. Construire une fourchette de sondage pour estimer la proportion de gardons dans le lac. Peut-il conclure qu’il y a dans le lac davantage de gardons que de goujons ?

    Éléments de réponse

    Les proportions observées : 33% de goujons et 66% de gardons nous permettent de construire des intervalles d’estimations :] 0,20 ; 0,46[ pour la proportion de gardons. On constate que 0,5 n’est pas dans cet intervalle. Si j’affirme qu’il y a plus de gardons que de goujons, je me trompe dans moins de 5% des cas.
    [/spoiler]

Fichiers d’animation
Les fichiers sont réalisés pour Excel 97 . Il faut accepter les macros à l’ouverture.
PileFace.xls simule le travail de la classe et d’un élève : Téléchargement

Les commentaires sont clos.