Il existe deux types de nuages qui donnent lieu à des précipitations: les nuages chauds et les
nuages froids. Ces derniers possèdent une température maximale de l’ordre de -10°C à
-25°C. Ils sont composés de cristaux de glace et de gouttelettes d’eau. Ces gouttelettes
d’eau subsistent alors que la température ambiante est inférieure à la température de
fusion. On parle d’eau surfondue. Leur état est instable. De fait, quand une particule de
glace rencontre une gouttelette d’eau, elles s’aggrègent pour ne former qu’une seule
particule de glace. Les particules de glace, plus lourdes que les gouttelettes, tombent
sous l’action de la gravité. Enfin si les températures des couches d’air inférieures sont
suffisamment élevées, les particules de glace fondent au cours de leur chute formant ainsi de la
pluie.
En l’absence d’un nombre suffisant de cristaux de glace pour initier le phénomène décrit
ci-dessus, on peut injecter dans le nuage froid des particules qui ont une structure cristalline proche
de la glace, par exemple de l’iodure d’argent (environ 100 à 1000 grammes par nuage).
Autour de ces particules, on observe la formation de cristaux de glace, ce qui permet, on
l’espère, de déclencher ou d’augmenter les précipitations. Il s’agit de l’ensemencement des
nuages. Signalons que cette méthode est également utilisée pour limiter le risque de
grêle.
Il est évident que la possibilité de modifier ainsi les précipitations présente un grand intérêt
pour l’agriculture. De nombreuses études ont été et sont encore consacrées à l’étude de l’efficacité
de l’ensemencement des nuages dans divers pays. L’étude de cette efficacité est cruciale et délicate.
Le débat est encore d’actualité.
1.2 Les données
On dispose des données concernant l’ensemencement par iodure d’argent des nuages en Floride
(1975)1 .
Les volumes de pluie déversées en 107m3 (cf. les deux tableaux ci-dessous) concernent 23 jours
similaires dont n1 = 11 jours avec ensemencement correspondant aux réalisations des variables
aléatoires X1,…,Xn1 et n2 = 12 jours sans ensemencement correspondant aux réalisations des
variables aléatoires Y1,…,Yn2.
i
1
2
3
4
5
6
7
8
9
10
11
Xi
7.45
4.70
7.30
4.05
4.46
9.70
15.10
8.51
8.13
2.20
2.16
Table 1: Volume de pluie en 107m3 déversée avec ensemencement
j
1
2
3
4
5
6
7
8
9
10
11
12
Yj
15.53
10.39
4.50
3.44
5.70
8.24
6.73
6.21
7.58
4.17
1.09
3.50
Table 2: Volume de pluie en 107m3 déversée sans ensemencement
On suppose que les volumes de pluies suivent une loi gaussienne et que l’effet de l’ensemencement
ne modifie pas la variance des lois gaussiennes.
Ceci revient à dire dans ce contexte paramétrique que les observations sont constituées de deux
échantillons gaussiens indépendants
On souhaite tester l’hypothèse nulle H0: “le procédé n’a pas d’effet” contre “le procédé produit
une augmentation significative de la quantité de pluie”, autrement dit
Il est indispensable de s’assurer d’abord que les hypothèses de modèle que l’on a faites sont
raisonnables:
Les données peuvent-elles être considérées comme des réalisations de lois gaussienne
pour les paramètres (moyenne, variance) appropriés?
Peut-on considérer que les variances sont les mêmes?
Des éléments de réponses au point (1) seront abordés ultérieurement dans le cours. Le point (2) est
abordé dans le paragraphe facultatif 1.5.
Nous admettons donc dans un premier temps ces deux hypothèses.
1.4 Comparaison des moyennes
Afin de se faire une idée des données et de l’écart entre les deux populations, on peut commencer
par calculer les moyennes empiriques
ainsi
que les variances empiriques
// taille des echantillons n1 = length(X); n2 = length(Y); // calcul des moyennes Xbar=sum(X)/n1 Ybar=sum(Y)/n2 // calcul de la somme des carres SSX=sum(X.^2); SSY=sum(Y.^2); // calcul des variances empiriques sans biais SX2 = SSX/(n1-1)- n1/(n1-1)*Xbar^2 SY2 = SSY/(n2-1)- n2/(n2-1)*Ybar^2
On rappelle que les variables aléatoires X (resp. Y ) et (n1− 1)SX2∕σ2 (resp. (n2− 1)SY2∕σ2)
sont indépendantes et de loi 𝒩(μ1,σ2∕n1) (resp. 𝒩(μ2,σ2∕n2)) et χ2(n1− 1) (resp. χ2(n2− 1)).
Comme SX2 et SY2 sont indépendants, on en déduit que la loi de + est la
loi du χ2 à n1 + n2− 2 degrés de liberté.
Sous H0, la loi de est la loi gaussienne centrée réduite. On en déduit que
sous H0,
suit une loi de Student de paramètre n1 + n2− 2.
Comme sous H1, X−Y converge p.s. vers μ1− μ2> 0 quand min(n1,n2) →∞, et que
lim min(n1,n2)→∞ = +∞, on en déduit que sous H1, la statistique T diverge vers +∞
quand min(n1,n2) →∞.
Question 1Construire, à partir de la statistique T, un test d’égalité des moyennes endéterminant sa région critique, la valeur critique au niveau α et la p-valeur.
Question 2En utilisant la fonction ttest2définie ci-dessous, calculer numériquement lavaleur de la statistique de test, la valeur critique au niveau 5%, et la p-valeur pour les donnéesde pluie. Conclusion.
La fonction ttest2 (ttest2(n1,Xbar,SX2,n2,Ybar,SY2,alpha)) retourne la valeur de la
statistique T observée, la valeur critique associée au niveau α et la p-valeur du test suggéré dans
la question précédente. Cliquer sur le lien ci-dessus pour obtenir le code de la fonction, le
sauvegarder, sous le nom ttest2.sce, dans le répertoire où vous utilisez scilab. Pour charger la
fonction, utiliser la commande: getf 'ttest2.sce'. Pour appliquer la fonction, utiliser la
commande:
ttest2(n1,Xbar,SX2,n2,Ybar,SY2,alpha)
On donne quelques indications pour la compréhension du code Scilab de ttest2 qui utilise la
fonction de répartion (“cumulative distribution function” en anglais) de la loi de Student:
c = cdft("T",k,p,1-p) donne à c la valeur du quantile d’ordre p de la loi de Student
de paramètre k: p = ℙ(T ≤ c), où T suit la loi de Student de paramètre k.
p = cdft("PQ",t,k) donne à p la valeur p = ℙ(T ≤ t), où T suit la loi de Student
de paramètre k.
Pour avoir plus d’information sur la fonction cdft, on peut consulter le manuel en utilisant la
commande help cdft.
Le but de ce qui suit est d’observer les résultats du tests quand les valeurs observées ou la taille
de l’échantillon varient.
Question 3
Faire varierY , les autres valeurs étant fixées. Pour quelles valeurs deY rejetez vousH0?
Avec la valeur deY ainsi déterminée, qu’observez vous si SY2augmente, si SY2diminue?
En reprenant les valeurs numériques du problème, qu’observez vous si n1et n2augmentent, si n1et n2diminuent jusqu’aux valeurs limites?
Question 4Reprendre les questions 1 et 2, si l’hypothèse nulle est {μ1≤ μ2}.
Pour s’assurer du point (2), on peut tout d’abord supposer que ces variances sont différentes, i.e.
puis construire un test d’égalité des variances, afin de voir si la différence sur les variances (ou les
écart-types) observée est significative.
Question 5 (Facultatif)Quelle est la loi de la statistique F = SX2∕SY2sous l’hypothèsenulle d’égalité des variances? Quel est son comportement sous H1, quand n1→ ∞ etn2→∞?
Question 6 (Facultatif)Construire, à partir de la statistique F, un test d’égalité desvariances. Déterminer la région critique du test, évaluer la valeur critique au niveau α = 5%
et la p-valeur pour les données de pluie? Conclusion.
On donne les commandes Scilab suivantes concernant la fonction de répartion de la loi de
Fisher:
c = cdff("F",k1,k2,p,1-p) donne à c la valeur du quantile d’ordre p de la loi de
de Fisher de paramètres (k1,k2): p = ℙ(F ≤ c), où F suit la loi de de Fisher de
paramètres (k1,k2).
[p,q] = cdff("PQ",f,k1,k2) donne à p et q les valeurs p = 1 −q = ℙ(F ≤ f), où F
suit la loi de Fisher de paramètres (k1,k2).
Pour avoir plus d’information sur la fonction cdff, on peut consulter le manuel en utilisant la
commande help cdff.
2 (Facultatif) Analysedelavarianceà unfacteur
2.1 Les données
On dispose de données (réelles) relatives à 6 jeux de notes pour un même contrôle, corrigé
par un unique correcteur, mais concernant six petites classes (et donc six enseignants)
différentes. On désire savoir si les résultats des petites classes sont significativement
différents.
2.2 Le modèle
On fait l’hypothèse que les notes sont distribuées suivant une loi gaussienne de même variance, et
de moyenne dépendant de l’enseignant. Le modèle s’écrit donc
où
mi est la note moyenne (inconnue) liée à l’enseignant i, et les 𝜀i,j sont des v.a. indépendantes de
loi 𝒩(0,σ2), où σ2> 0 est inconnu également.
// nombre de groupes k = max(Grp); // calcul de l'effectif n(i), de la moyenne moy(i) // et de la variance s2(i) du groupe i for i=1:k, n(i) = length(X(Grp==i)); moy(i) = sum(X(Grp==i))/n(i); ss(i)=sum(X(Grp==i).^2); s2(i)=ss(i)/(n(i)-1)- n(i)/(n(i)-1)*moy(i)^2; end; [n,moy,s2] // effectif, moyenne et variance par groupe
Question 7Quelles sont les estimations des mi, i = 1,…, 6? Quelle est l’estimation de σ2?
Question 8Peut-on considérer qu’il existe une différence significative entre les notes desclasses, dues aux qualités pédagogiques des enseignants? Effectuer le test de l’hypothèse nulleH0 : “les enseignants ne présentent pas de différence” contre “c’est faux”. Écrire la tabled’analyse de la variance et conclure.
On pourra utiliser les commandes suivantes:
// calcul de la moyenne generale mg=sum(X)/length(X); // calcul des sommes de carres SSM = sum(n.*(moy-mg).^2); SSE = sum(s2.*(n-1));
La fonction anova (anova(n,moy,s2,alpha)) retourne la table d’analyse de la variance
associée. Les paramètres sont n, vecteur des tailles de chacun des groupes; moy, vecteur des
moyennes de chacun des groupes; s2, vecteur des variances de chacun des groupes; alpha, niveau
du test d’analyse de la variance. Cliquer sur le lien ci-dessus pour obtenir le code de la fonction, le
sauvegarder sous le nom anova.sce dans le répertoire où vous utilisez scilab. Pour charger la
fonction, utiliser la commande: getf 'anova.sce'. Pour appliquer la fonction, utiliser la
commande:
anova(n,moy,s2, alpha)
Le but de ce qui suit est d’observer les résultats du tests quand les valeurs observées ou la taille
de l’échantillon varient.
Question 9
Faire varier le vecteur moy, les autres valeurs étant fixées. Pour quelles valeurs de moyrejetez vous H0?
Qu’observez vous si le vecteur, s2, des variances augmente, s’il diminue?
En reprenant les valeurs numériques du problème, qu’observez vous si le vecteur, n, destailles des groupes augmente ou diminue?
Question 10Si l’on rejette H0, il est naturel de déterminer les classes qui sont significativementdifférentes.
Proposer des intervalles de confiance pour les notes moyennes pour chaque classe.
Proposer un test de l’hypothèse nulle
fondé sur la loi de Student, et l’utiliser afin de comparer quelques couples de moyennes.
3 Régression linéaire
3.1 Les données
L’exemple utilisé a déjà été proposé dans les exercices sur le chapitre 2. On dispose de données
concernant l’âge (X1), le kilométrage en milliers de kms (X2), et le prix en milliers d’euros (Y )
pour un échantillon de voitures d’occasion d’un même type:
Si l’on veut étudier la liaison entre les variables potentiellement explicatives et la variable à
expliquer (le prix Y ), on peut commencer par visualiser les nuages de points (X1,Y ) et
(X2,Y ):
Question 12L’âge a-t-il une influence significative sur le prix?.
La fonction regression (regression(M,Y,alpha)) calcule, à partir de la donnée du modèle sous
la forme Y = M𝜃 + 𝜀, où Y est la variable à expliquer et M la matrice définissant le modèle, les
éléments usuels:
L’estimateur du paramètre 𝜃: theta = (MtM)−1MtY.
L’estimateur de σ2: sigma2 = MSE.
La table d’analyse de la variance pour l’hypothèse nulle “aucun régresseur n’est
significatif”.
La valeur critique associée au niveau alpha.
Cliquer sur le lien ci-dessus pour obtenir le code de la fonction, le sauvegarder sous le nom
regression.sce dans le répertoire où vous utilisez scilab. Pour charger la fonction,
utiliser la commande: getf 'regression.sce'. Pour appliquer la fonction, utiliser la
commande:
regression(M,Y,alpha)
Pour le modèle, où on explique le prix en fonction de l’âge, on utilise les commaneds
suivantes:
// MODELE (M1) Y = theta1(0) + theta1(1) X1 + eps M1 = [ones(X1) X1]; // matrice des regresseurs // Pour obtenir les estimations de theta, sigma2, // et la p-valeur [theta1,sigma21,pval1]=regression(M1,Y,alpha);
On représente enfin la droite de régression sur le nuage:
xbasc(); // trace de la droite z=1:0.1:8; t=theta1(1)+theta1(2)*z; xbasc(); plot2d(X1,Y,-2,"111","Age",[1,0,8,16]); plot2d(z,t,[1],"000");
3.3 Régression linéaire multiple
On propose d’essayer à présent le modèle “complet”
Question 13Donner, à l’aide de la fonction regressiondes estimations sans biais desparamètres (γ,α1,α2) et σ2.
Question 14Test de l’utilité d’un régresseur: Tester, au niveau 5%, l’hypothèse nulle “lekilométrage n’a pas d’effet sur le prix” contre “c’est faux”.
La fonction regression n’effectue pas le test demandé (quel test effectue-t-elle?). Ecrire les
commandes Scilab permettant de calculer la statistique et la p-valeur du test demandé, et
conclure.
Question 15A l’aide de la question précédente, déterminer quel sous-modèle, parmi lesdeux sous-modèles à un seul régresseur, explique le mieux le prix?