Aix Marseille Vert
Sommaire
Télécharger
À propos du bulletin

      

Les intervalles de confiance

Roland CHIAVASSA

Aspect mathématique

Définition d'un intervalle de confiance

Construire un intervalle de confiance au niveau de confiance 1 - a pour le paramètre q revient à construire l'intervalle [Li , Ls] tel que :
p(Li <= q <= Ls) = 1- a
(1)
La probabilité a est le risque d'erreur, c'est à dire la probabilité que l'intervalle ne contienne pas la véritable valeur (inconnue) de q.

Pour trouver Li et Ls, il faut définir une fonction f(t,q) dont on connaît la loi de probabilité, où t est un estimateur de q. On en déduit alors un intervalle [ti , ts] tel que :
p(ti <= f(t,q) <= ts) = 1- a
(2)
Il reste à extraire de (2) l'intervalle [Li , Ls] qui vérifie (1).

Application

La variable X suit une loi normale N(m , s). On veut estimer m et s. Pour cela, on tire un échantillon aléatoire de taille n sur lequel on mesure :

- la moyenne empirique :
- la variance empirique :

Théorème 1 Sous les hypothèses précédentes, sont des variables indépendantes et :
  
  
tn-1 est la loi de Student à n-1 degrés de liberté et cn-12 la loi du c2 à n-1 degrés de liberté. Les densités de ces deux lois ainsi que des tables numériques sont données en annexes.

Généralisation

Si X ne suit pas une loi normale mais ne s'en écarte "pas trop", les résultats ci-dessus restent valables. La raison de ce comportement est donnée par le théorème de la limite centrale dont on trouvera une démonstration dans [DACUNHA CASTELLE] et dans [HOEL] (voir bibliographie).

Théorème 2 Soit X une variable aléatoire de moyenne m et d'écart-type s. Alors la variable aléatoire se distribue suivant une loi qui se rapproche de la loi normale centrée, réduite lorsque n tend vers l'infini.

Pour plus de précision "se distribue suivant une loi qui se rapproche de la loi normale centrée, réduite"  signifie : "converge en loi" vers la loi normale centrée, réduite.

Intervalles de confiance pour d'autres paramètres

Intervalle de confiance pour une proportion

Cet exemple est traité dans la broche APMEP n 130 : Les statistiques dans le programme de seconde à la rentrée 2000. C'est une application immédiate des résultats précédents lorsque la variable X est la variable binomiale Sn. L'exercice II traite de cette estimation.

Intervalle de confiance pour l'intervalle interquartiles

Q0.25 et Q0.75 sont les 2 quartiles différents de la médiane (Q0.5) d'une variable X qui suit une loi N(m ,s). On appelle (à tort) intervalle interquartiles le réel D=Q0.75-Q0.25. On prélève un échantillon de taille n de la variable X sur lequel on estime Q0.25 et Q0.75 par 0.25 et 0.75. On a donc un estimateur de D. On démontre que la variable tend vers la loi normale centrée réduite quand n tend vers l'infini. La démonstration de ce résultat se trouve dans : Problèmes résolus de statistique mathématique N. Caron , P. Tassi Edition Economica (problème 24, page 217).

Quel est l'intérêt de l'estimation de  ? Pour la loi normale N(m ,s), on a :
D=Q0.75-Q0.25 = 1.3490 s
Donc (1/1.3490) est un estimateur (sans biais) de s.

Intervalles de confiance pour les coefficients de la droite de régression linéaire

On observe un échantillon de n couples de valeurs (xi , yi) où i=1 , 2 ... n dans lesquels les xi sont considérés comme des valeurs fixées et les ei sont des variables aléatoires. Le modèle de régression simple suppose que pour tout i, on a :
yi = b0+b1 xi + ei
La méthode des moindres carrés permet de calculer des estimateurs pour b0 et b1 :

En imposant aux variables ei les hypothèses suivantes :

    - les variables ei sont indépendantes.
    - les variables ei sont distribuées suivant une loi normale N(0 , s)
on démontre les résultats suivants : et sont normalement distribués avec :

ainsi que :

Intervalle de confiance pour b0 et b1 : leurs variances empiriques sont obtenues en remplaçant s2 inconnu par dans les formules ci-dessus. Les variables

sont distribuées suivant une loi de Student à n-2 degrés de liberté.

Énoncés des exercices

Exercice I

Les poids en grammes de 1000 pots de confiture sortis successivement d'une machine à conditionner ont été les suivants (les résultats sont donnés par classes de longueur 2, l'origine de la première étant 2000 et l'extrémité de la dernière 2022) :


classe 1234567891011
effectif9215813120421318511050163

1) - En admettant que le poids des pots suit une loi normale, estimer ponctuellement, puis à l'aide d'un intervalle de confiance à 95%, sa moyenne et son écart-type.

2) - En admettant que l'écart-type de la machine est invariable dans le temps (égal à celui estimé au 1) et que le réglage n'a d'influence que sur la moyenne, quelle valeur doit-on choisir si l'on veut que la probabilité pour qu'un pot pèse moins de 2000 g (infraction à la législation du service des fraudes) soit inférieure à 10-4 ?

3) - La machine ayant été ainsi réglée, on pèse en cours de fabrication, simultanément 8 pots pour contrôler le réglage ; dans quels cas décidera-t-on de modifier le réglage ? (on donnera une limite de surveillance et une limite de contrôle)

Exercice II

Pour obtenir une estimation de la population d'hyperglycémiques parmi les personnes agées de plus de 60 ans, on choisit au hasard 170 personnes dans cette population. On constate que 34 sont hyperglycémiques.

Donner un intervalle de confiance (niveau de risque 5%) pour le pourcentage exact d'hyperglycémiques dans cette population.

Exercice III

Fisher a publié en 1936 les données suivantes. L'échantillon comporte 150 iris de 3 espèces différentes (setosa, versicolor, virginica) à raison de 50 iris pour chaque espèce. Il a mesuré, pour chaque iris, la longueur du sépale, la largeur du sépale, la longueur du pétale, la largeur du pétale. Dans cet exercice, intéressons-nous uniquement à l'espèce virginica et cherchons plus particulièrement une relation entre la longueur et la largeur du sépale. Plus précisement, la largeur du sépale (variable à expliquer) peut-elle être "expliqué" par une relation affine dans laquelle la variable est la longueur du sépale (variable explicative).

Correction des exercices

Les tables des lois normale et de Student ne sont pas reproduites ici. On les trouvera en annexe du même article téléchargeable au format pdf.

Exercice I

1) - Sur cet échantillon, la moyenne empirique et l'écart-type empirique valent respectivement :  = 2010.73 et S = 3.58. Ce sont des estimations ponctuelles de la moyenne m et de l'écart-type s de la variable aléatoire X : "poids d'un pot de confiture".

On peut aussi donner une estimation par intervalle de ces deux paramètres. X est une variable (considérée comme) normale, la variable suit une loi de Student à n-1 degrés de liberté. Ici, on a donc :

En prenant a = 0.05, on a ta=1.96. Par conséquent, la probabilité pour que cette variable aléatoire prenne des valeurs comprises entre -ta et ta vaut 0.95, en particulier lorsque =2010.73 et S=3.58. Donc :

donne :

d'où l'intervalle de confiance à 95 % pour m :
2010.51 <= m <= 2010.95

Pour estimer s par un intervalle de confiance à 95 %, on utilise la loi de répartition de c'est la loi du c2 à n-1 degrés de liberté :

La valeur de la borne pour 999 d.d.l n'est pas donnée directement dans la table, mais on a le moyen de calculer cette borne pour un d.d.l supérieur à 30. On obtient ici t=(1/s)159.98-44.69. Pour a = 0.05, on a (table de l'écart réduit), ta=1.96, d'où l'encadrement :

-1.96 <= 1/s 159.98-44.69<=1.96

qui conduit à l'intervalle de confiance à 95 % pour s : 3.43<=s<=3.74.

2) - On suppose que s = 3.58. Alors X suit une loi N(m;3.58).

On cherche m tel que : p(X<=2000)<=10-4 donc tel que
La table de la loi normale donne , soit m >= 2013.32.

3) - La moyenne des poids des 8 pots étant calculée, dans quelles conditions peut-on affirmer que la moyenne m de la population est toujours m0=2013,32 g. Il s'agit là d'un test d'hypothèse. L'hypothèse à tester est l'hypothèse nulle H0 : m = m0, l'hypothèse alternative est ici H1 : m ≠ m0. Intuitivement on acceptera H0 si est "proche" de m0, sinon on la rejettera. Pour décider si l'on accepte ou refuse H0, on définit une région d'acceptation dans laquelle on accepte H0 si appartient à celle-ci et une région complémentaire appelée région critique dans laquelle on rejette H0.

Dans l'exemple précédent, on définira la région d'acceptation sous la forme d'un intervalle Ia de centre m0 tel que . a est le seuil de risque : risque de refuser H0 alors qu'elle est vraie.

Retour à l'exercice : On choisit deux risques ac et as qui vont définir des intervalles de contrôle : Ic et de surveillance : Is. Par exemple pour ac=0.01 et as=0.05 on obtient comme intervalles :


    a) de contrôle 2010.06 <= <= 2016.58
    b) de surveillance 2010.84 <= <= 2015.80
Ces deux résultats sont obtenus en écrivant que la variable aléatoire suit une loi normale centrée, réduite.

Exercice II

En appelant la proportion estimée sur l'échantillon, la variable suit une loi normale centrée réduite. L'intervalle de confiance au niveau 95 % pour p se déduit de la relation :

On en tire : 0.14 <= p <= 0.26.

Exercice III

La droite de régression linéaire a pour équation :
y=1.3974 + 0.2359 x
avec les notations utilisées plus haut : =1.3974 et =0.2359. Les intervalles de confiance à 95 % pour les coefficients de la droite de régression linéaire sont :
0.0735 <= b1 <= 0.3984       et        0.3158 <= b0 <= 2.4790

Documentation - Bibliographie

Livres de base


    - Statistique - Dictionnaire encyclopédique - Y. DODGE - Ed. Dunod
    - Statistique mathématique - 2 tomes - P. G. HOEL - Ed. Armand Colin
    - Aide-mémoire statistique - CISIA CERESTA Editeur

Niveau plus élevé


    - Méthodes statistiques - P TASSI - Ed. Economica
    - Problèmes résolus de statistique mathématique - P TASSI ; N. CARON - Ed. Economica
    - Probabilités et statistique - D. DACUNHA CASTELLE ; M. DUFLO - Ed. Masson
    - The advanced theory of statistics - M. G. KENDALL ; A. SUART - Ed; Charles Griffin and Company limited - London

Articles - Revues


    - article : Comment rationnaliser les décisions - Pour la Science n 277 - Novembre 2000
    - dossier : Le hasard - Pour la Science - Hors série - Avril 1996

Sur le web


    - The Portal to Statistics on the Internet www.statoo.com (avec de très nombreux liens vers d'autres sites)
    - Electronic Dataset Service (une source de données statistiques)
    www-unix.oit.umass.edu/~statdata/
    

Logiciels


    - Excel et mieux encore Excel + XlStat www.xlstat.com/indexfr.html un << add on >> qui ajoute d'intéressantes possibilités à Excel (essai gratuit puis environ 800 F)
    - Un autre << add on >> d'Excel : Analyse it (en anglais)
    - Simstat >www.simstat.com/main.html (en anglais, essai gratuit, logiciel très agréable à utiliser, assez complet)
    - Les logiciels de calcul formel : Mathématica - Maple (plus ou moins adaptés à la statistique)
    - Un logiciel gratuit du monde Linux : << R >> (certainement très puissant mais tout en ligne de commande ! à moins de créer soi-même son interface graphique !!)


Régionale aix-Marseille

Haut de la page 

A.P.M.E.P.