Sommaire
Télécharger
À propos du bulletin
|
Les intervalles de confianceRoland CHIAVASSAAspect mathématiqueDéfinition d'un intervalle de confianceConstruire un intervalle de confiance au niveau de confiance 1 - a pour le paramètre q revient à construire l'intervalle [Li , Ls] tel que :
Pour trouver Li et Ls, il faut définir une fonction
f(t,q) dont on connaît la loi de probabilité,
où t est un estimateur de q.
On en déduit alors un
intervalle [ti , ts] tel que :
ApplicationLa variable X suit une loi normale N(m , s). On veut estimer m et s. Pour cela, on tire un échantillon aléatoire de taille n sur lequel on mesure :
- la moyenne empirique :
Théorème 1
Sous les hypothèses précédentes,
GénéralisationSi X ne suit pas une loi normale mais ne s'en écarte "pas trop", les résultats ci-dessus restent valables. La raison de ce comportement est donnée par le théorème de la limite centrale dont on trouvera une démonstration dans [DACUNHA CASTELLE] et dans [HOEL] (voir bibliographie).
Théorème 2
Soit X une variable aléatoire de moyenne m et d'écart-type s.
Alors la variable aléatoire
Pour plus de précision "se distribue suivant une loi qui se rapproche de la loi normale centrée, réduite" signifie : "converge en loi" vers la loi normale centrée, réduite.
Intervalles de confiance pour d'autres paramètresIntervalle de confiance pour une proportionCet exemple est traité dans la broche APMEP n 130 : Les statistiques dans le programme de seconde à la rentrée 2000. C'est une application immédiate des résultats précédents lorsque la variable X est la variable binomiale Sn. L'exercice II traite de cette estimation.Intervalle de confiance pour l'intervalle interquartilesQ0.25 et Q0.75 sont les 2 quartiles différents de la médiane (Q0.5) d'une variable X qui suit une loi N(m ,s). On appelle (à tort) intervalle interquartiles le réel D=Q0.75-Q0.25. On prélève un échantillon de taille n de la variable X sur lequel on estime Q0.25 et Q0.75 par 0.25 et
0.75.
On a donc un estimateur de D.
On démontre que la variable
tend vers la loi normale centrée réduite quand
n tend vers l'infini.
La démonstration de ce résultat se trouve dans :
Problèmes résolus de statistique mathématique N. Caron , P.
Tassi Edition Economica (problème 24, page 217).
Quel est l'intérêt de l'estimation de
est un estimateur
(sans biais) de s.
Intervalles de confiance pour les coefficients de la droite de régression linéaireOn observe un échantillon de n couples de valeurs (xi , yi) où i=1 , 2 ... n dans lesquels les xi sont considérés comme des valeurs fixées et les ei sont des variables aléatoires. Le modèle de régression simple suppose que pour tout i, on a :
- les variables ei sont indépendantes. - les variables ei sont distribuées suivant une loi normale N(0 , s) et
sont normalement distribués avec :
dans les formules ci-dessus.
Les variables
Énoncés des exercicesExercice ILes poids en grammes de 1000 pots de confiture sortis successivement d'une machine à conditionner ont été les suivants (les résultats sont donnés par classes de longueur 2, l'origine de la première étant 2000 et l'extrémité de la dernière 2022) :
1) - En admettant que le poids des pots suit une loi normale, estimer ponctuellement, puis à l'aide d'un intervalle de confiance à 95%, sa moyenne et son écart-type. 2) - En admettant que l'écart-type de la machine est invariable dans le temps (égal à celui estimé au 1) et que le réglage n'a d'influence que sur la moyenne, quelle valeur doit-on choisir si l'on veut que la probabilité pour qu'un pot pèse moins de 2000 g (infraction à la législation du service des fraudes) soit inférieure à 10-4 ? 3) - La machine ayant été ainsi réglée, on pèse en cours de fabrication, simultanément 8 pots pour contrôler le réglage ; dans quels cas décidera-t-on de modifier le réglage ? (on donnera une limite de surveillance et une limite de contrôle) Exercice IIPour obtenir une estimation de la population d'hyperglycémiques parmi les personnes agées de plus de 60 ans, on choisit au hasard 170 personnes dans cette population. On constate que 34 sont hyperglycémiques.Donner un intervalle de confiance (niveau de risque 5%) pour le pourcentage exact d'hyperglycémiques dans cette population. Exercice IIIFisher a publié en 1936 les données suivantes. L'échantillon comporte 150 iris de 3 espèces différentes (setosa, versicolor, virginica) à raison de 50 iris pour chaque espèce. Il a mesuré, pour chaque iris, la longueur du sépale, la largeur du sépale, la longueur du pétale, la largeur du pétale. Dans cet exercice, intéressons-nous uniquement à l'espèce virginica et cherchons plus particulièrement une relation entre la longueur et la largeur du sépale. Plus précisement, la largeur du sépale (variable à expliquer) peut-elle être "expliqué" par une relation affine dans laquelle la variable est la longueur du sépale (variable explicative).Correction des exercicesExercice I1) - Sur cet échantillon, la moyenne empirique et l'écart-type empirique valent respectivement : = 2010.73 et
S = 3.58. Ce sont des estimations ponctuelles de la moyenne
m et de l'écart-type s de la variable aléatoire X :
"poids d'un pot de confiture".
On peut aussi donner une estimation par intervalle de ces
deux paramètres. X est une variable (considérée comme) normale,
la variable
=2010.73 et S=3.58.
Donc :
Pour estimer s
par un intervalle de confiance à 95 %, on utilise la loi de répartition de
pour 999 d.d.l n'est pas
donnée directement dans la table, mais on a
le moyen de calculer cette borne pour un d.d.l
supérieur à 30. On obtient ici t=(1/s)159.98-44.69.
Pour a = 0.05, on a (table de l'écart réduit),
ta=1.96, d'où l'encadrement :
-1.96 <= 1/s 159.98-44.69<=1.96 qui conduit à l'intervalle de confiance à 95 % pour s : 3.43<=s<=3.74.2) - On suppose que s = 3.58. Alors X suit une loi N(m;3.58).
On cherche m tel que :
p(X<=2000)<=10-4
donc tel que
3) - La moyenne
Dans l'exemple précédent, on définira la région d'acceptation
sous la forme d'un intervalle Ia de centre m0
tel que
Retour à l'exercice : On choisit deux risques ac et as qui vont définir des intervalles de contrôle : Ic et de surveillance : Is. Par exemple pour ac=0.01 et as=0.05 on obtient comme intervalles : a) de contrôle 2010.06 <= <= 2016.58
b) de surveillance 2010.84 <= <= 2015.80
suit une loi normale centrée, réduite.
Exercice IIEn appelant
la proportion estimée sur l'échantillon, la variable
suit une loi normale centrée
réduite. L'intervalle de confiance au niveau 95 % pour p se
déduit de la relation :
Exercice IIILa droite de régression linéaire a pour équation :
=1.3974
et
=0.2359.
Les intervalles de confiance à 95 %
pour les coefficients de la droite de régression linéaire sont :
Documentation - Bibliographie
Livres de base- Statistique - Dictionnaire encyclopédique - Y. DODGE - Ed. Dunod - Statistique mathématique - 2 tomes - P. G. HOEL - Ed. Armand Colin - Aide-mémoire statistique - CISIA CERESTA Editeur Niveau plus élevé- Méthodes statistiques - P TASSI - Ed. Economica - Problèmes résolus de statistique mathématique - P TASSI ; N. CARON - Ed. Economica - Probabilités et statistique - D. DACUNHA CASTELLE ; M. DUFLO - Ed. Masson - The advanced theory of statistics - M. G. KENDALL ; A. SUART - Ed; Charles Griffin and Company limited - London Articles - Revues- article : Comment rationnaliser les décisions - Pour la Science n 277 - Novembre 2000 - dossier : Le hasard - Pour la Science - Hors série - Avril 1996 Sur le web- The Portal to Statistics on the Internet www.statoo.com (avec de très nombreux liens vers d'autres sites) - Electronic Dataset Service (une source de données statistiques) www-unix.oit.umass.edu/~statdata/ Logiciels- Excel et mieux encore Excel + XlStat www.xlstat.com/indexfr.html un << add on >> qui ajoute d'intéressantes possibilités à Excel (essai gratuit puis environ 800 F) - Un autre << add on >> d'Excel : Analyse it (en anglais) - Simstat >www.simstat.com/main.html (en anglais, essai gratuit, logiciel très agréable à utiliser, assez complet) - Les logiciels de calcul formel : Mathématica - Maple (plus ou moins adaptés à la statistique) - Un logiciel gratuit du monde Linux : << R >> (certainement très puissant mais tout en ligne de commande ! à moins de créer soi-même son interface graphique !!) |