« Mathématiques avec Python et Ruby/Statistique inférentielle avec Python » : différence entre les versions

Contenu supprimé Contenu ajouté
Aucun résumé des modifications
Ligne 123 :
[[Fichier:Votingwomen.jpg|right]]
 
L'échantillon choisi par l'institut de sondage, s'il a réellement été choisi au hasard, était favorable au maire avec une probabilité d'environ 0,961. Cette probabilité n'est pas si ridicule que ça, et l'institut de sondage aurait pu répondre au maire "c'est la faute à pas de chance": Il est tombé sur les 9610 % d'échantillons favorables... Un épisode analogue s'est déroulé lors des élections présidentielles de 1995, le [[w:Sarkozy|ministre du budget]] de l'époque ayant un peu trop vite cru aux sondages !
 
Plus sérieux (et plus prudent, pour éviter la vindicte de l'ancien maire, désormais dans l'opposition, et qui a maintenant le temps de mener une croisade contre les instituts de sondage) eût été la publication par l'institut de sondage, d'un [[w:Intervalle de confiance|intervalle de confiance]], par exemple à 95% (c'est-à-dire un intervalle qui contient en moyenne 95% des échantillons). Expérimentalement, on peut s'inventer un intervalle et compter la fréquence des échantillons de 100 personnes qui sont dedans. Ce sera un estimateur de la probabilité que l'échantillon soit représentatif de l'ensemble de la population:
Ligne 135 :
for n in range(1000):
pourcentage=len([v for v in sample(population,100) if v=='pour'])/100
if pourcentage>0.5243-h and pourcentage<0.5243+h:
p+=1
 
Ligne 141 :
</source>
 
On voit que l'intervalle ''[0,4233 ; 0,6253]'' obtenu avec ''h=0,1'' est un intervalle à 5595 %. En modifiant la valeur de ''h'' on constate que si ''h'' diminue (l'intervalle rétrécit), on perd de la confiance (la probabilité qu'il soit bon diminue aussi), et qu'il faut donc augmenter ''h'' si on veut arriver à 95 % de confiance. On voit aussi que pour ''h'' environ égale à 2, environ 98 % des échantillons sont dans l'intervalle obtenu, qui est donc un intervalle à 98 %. On trouve par tâtonnements la valeur de ''h'' pour laquelle la confiance de l'intervalle vaut 95 % (on trouve environ 0,18), puis par changement de la taille de l'échantillon, on peut conjecturer le lien entre ''h'' et la taille de l'échantillon.
 
''Remarque'': En théorie, pour un échantillon de 100 personnes, on devrait trouver ''h'' proche de 0,1 ce qui n'est pas le cas. Il semble que les tirages sans remise de ''Python'' ne soient pas assez aléatoires.
 
==Pour des moyennes==
Ligne 167 ⟶ 166 :
</source>
 
On découvre que l'intervalle de confiance ''[15,9 ; 16,1]'' donné ci-dessus (pour ''h=0,1'') est à environ 40% de confiance. En modifiant la valeur de ''h'', on retrouve expérimentalement que pour celle-ci égale à environ <math>\frac{2\sigma}{\sqrt{100}}</math>, l'intervalle est à 95 % de confiance.
 
=Test d'équirépartition=