Il existe deux types de nuages qui donnent lieu à des précipitations: les nuages chauds et les nuages froids. Ces derniers possèdent une température maximale de l’ordre de -10°C à -25°C. Ils sont composés de cristaux de glace et de gouttelettes d’eau. Ces gouttelettes d’eau subsistent alors que la température ambiante est inférieure à la température de fusion. On parle d’eau surfondue. Leur état est instable. De fait, quand une particule de glace rencontre une gouttelette d’eau, elles s’aggrègent pour ne former qu’une seule particule de glace. Les particules de glace, plus lourdes que les gouttelettes, tombent sous l’action de la gravité. Enfin si les températures des couches d’air inférieures sont suffisamment élevées, les particules de glace fondent au cours de leur chute formant ainsi de la pluie.
En l’absence d’un nombre suffisant de cristaux de glace pour initier le phénomène décrit ci-dessus, on peut injecter dans le nuage froid des particules qui ont une structure cristalline proche de la glace, par exemple de l’iodure d’argent (environ 100 à 1000 grammes par nuage). Autour de ces particules, on observe la formation de cristaux de glace, ce qui permet, on l’espère, de déclencher ou d’augmenter les précipitations. Il s’agit de l’ensemencement des nuages. Signalons que cette méthode est également utilisée pour limiter le risque de grêle.
Il est évident que la possibilité de modifier ainsi les précipitations présente un grand intérêt pour l’agriculture. De nombreuses études ont été et sont encore consacrées à l’étude de l’efficacité de l’ensemencement des nuages dans divers pays. L’étude de cette efficacité est cruciale et délicate. Le débat est encore d’actualité.
On dispose des données concernant l’ensemencement par iodure d’argent des nuages en Floride (1975)1 .
Les volumes de pluie déversées en 107m3 (cf. les deux tableaux ci-dessous) concernent 23 jours similaires dont n1 = 11 jours avec ensemencement correspondant aux réalisations des variables aléatoires X1,…,Xn1 et n2 = 12 jours sans ensemencement correspondant aux réalisations des variables aléatoires Y 1,…,Y n2.
On suppose que les volumes de pluies suivent une loi gaussienne et que l’effet de l’ensemencement ne modifie pas la variance des lois gaussiennes.
Ceci revient à dire dans ce contexte paramétrique que les observations sont constituées de deux échantillons gaussiens indépendants
Il est indispensable de s’assurer d’abord que les hypothèses de modèle que l’on a faites sont raisonnables:
Des éléments de réponses au point (1) seront abordés ultérieurement dans le cours. Le point (2) est abordé dans le paragraphe facultatif 1.5.
Nous admettons donc dans un premier temps ces deux hypothèses.
Afin de se faire une idée des données et de l’écart entre les deux populations, on peut commencer par calculer les moyennes empiriques
On rappelle que les variables aléatoires n1 − 1)SX2∕σ2 (resp. (n 2 − 1)SY 2∕σ2) sont indépendantes et de loi 𝒩(μ1,σ2∕n 1) (resp. 𝒩(μ2,σ2∕n 2)) et χ2(n 1 − 1) (resp. χ2(n 2 − 1)). Comme SX2 et S Y 2 sont indépendants, on en déduit que la loi de + est la loi du χ2 à n 1 + n2 − 2 degrés de liberté.
(resp. ) et (Sous H0, la loi de est la loi gaussienne centrée réduite. On en déduit que sous H0,
suit une loi de Student de paramètre n1 + n2 − 2.
Comme sous H1, − converge p.s. vers μ1 − μ2 > 0 quand min(n1,n2) →∞, et que lim min(n1,n2)→∞ = +∞, on en déduit que sous H1, la statistique T diverge vers +∞ quand min(n1,n2) →∞.
Question 1 Construire, à partir de la statistique T, un test d’égalité des moyennes en déterminant sa région critique, la valeur critique au niveau α et la p-valeur.
Question 2 En utilisant la fonction ttest2 définie ci-dessous, calculer numériquement la valeur de la statistique de test, la valeur critique au niveau 5%, et la p-valeur pour les données de pluie. Conclusion.
La fonction ttest2 (ttest2(n1,Xbar,SX2,n2,Ybar,SY2,alpha)) retourne la valeur de la statistique T observée, la valeur critique associée au niveau α et la p-valeur du test suggéré dans la question précédente. Cliquer sur le lien ci-dessus pour obtenir le code de la fonction, le sauvegarder, sous le nom ttest2.sce, dans le répertoire où vous utilisez scilab. Pour charger la fonction, utiliser la commande: getf 'ttest2.sce'. Pour appliquer la fonction, utiliser la commande:
ttest2(n1,Xbar,SX2,n2,Ybar,SY2,alpha)
On donne quelques indications pour la compréhension du code Scilab de ttest2 qui utilise la fonction de répartion (“cumulative distribution function” en anglais) de la loi de Student:
Pour avoir plus d’information sur la fonction cdft, on peut consulter le manuel en utilisant la commande help cdft.
Le but de ce qui suit est d’observer les résultats du tests quand les valeurs observées ou la taille de l’échantillon varient.
Question 3
Question 4 Reprendre les questions 1 et 2, si l’hypothèse nulle est {μ1 ≤ μ2}.
Pour s’assurer du point (2), on peut tout d’abord supposer que ces variances sont différentes, i.e.
Question 5 (Facultatif) Quelle est la loi de la statistique F = SX2∕S Y 2 sous l’hypothèse nulle d’égalité des variances? Quel est son comportement sous H1, quand n1 → ∞ et n2 →∞?
Question 6 (Facultatif) Construire, à partir de la statistique F, un test d’égalité des variances. Déterminer la région critique du test, évaluer la valeur critique au niveau α = 5% et la p-valeur pour les données de pluie? Conclusion.
On donne les commandes Scilab suivantes concernant la fonction de répartion de la loi de Fisher:
Pour avoir plus d’information sur la fonction cdff, on peut consulter le manuel en utilisant la commande help cdff.
On dispose de données (réelles) relatives à 6 jeux de notes pour un même contrôle, corrigé par un unique correcteur, mais concernant six petites classes (et donc six enseignants) différentes. On désire savoir si les résultats des petites classes sont significativement différents.
On fait l’hypothèse que les notes sont distribuées suivant une loi gaussienne de même variance, et de moyenne dépendant de l’enseignant. Le modèle s’écrit donc
On peut résumer les données.
Question 7 Quelles sont les estimations des mi, i = 1,…, 6? Quelle est l’estimation de σ2?
Question 8 Peut-on considérer qu’il existe une différence significative entre les notes des classes, dues aux qualités pédagogiques des enseignants? Effectuer le test de l’hypothèse nulle H0 : “les enseignants ne présentent pas de différence” contre “c’est faux”. Écrire la table d’analyse de la variance et conclure.
On pourra utiliser les commandes suivantes:
La fonction anova (anova(n,moy,s2,alpha)) retourne la table d’analyse de la variance associée. Les paramètres sont n, vecteur des tailles de chacun des groupes; moy, vecteur des moyennes de chacun des groupes; s2, vecteur des variances de chacun des groupes; alpha, niveau du test d’analyse de la variance. Cliquer sur le lien ci-dessus pour obtenir le code de la fonction, le sauvegarder sous le nom anova.sce dans le répertoire où vous utilisez scilab. Pour charger la fonction, utiliser la commande: getf 'anova.sce'. Pour appliquer la fonction, utiliser la commande:
anova(n,moy,s2, alpha)
Le but de ce qui suit est d’observer les résultats du tests quand les valeurs observées ou la taille de l’échantillon varient.
Question 9
Question 10 Si l’on rejette H0, il est naturel de déterminer les classes qui sont significativement différentes.
L’exemple utilisé a déjà été proposé dans les exercices sur le chapitre 2. On dispose de données concernant l’âge (X1), le kilométrage en milliers de kms (X2), et le prix en milliers d’euros (Y ) pour un échantillon de voitures d’occasion d’un même type:
Si l’on veut étudier la liaison entre les variables potentiellement explicatives et la variable à expliquer (le prix Y ), on peut commencer par visualiser les nuages de points (X1,Y ) et (X2,Y ):
Question 11 Que suggèrent les deux nuages?
On propose tout d’abord le modèle M1:
Question 12 L’âge a-t-il une influence significative sur le prix?.
La fonction regression (regression(M,Y,alpha)) calcule, à partir de la donnée du modèle sous la forme Y = M𝜃 + 𝜀, où Y est la variable à expliquer et M la matrice définissant le modèle, les éléments usuels:
Cliquer sur le lien ci-dessus pour obtenir le code de la fonction, le sauvegarder sous le nom regression.sce dans le répertoire où vous utilisez scilab. Pour charger la fonction, utiliser la commande: getf 'regression.sce'. Pour appliquer la fonction, utiliser la commande:
regression(M,Y,alpha)
Pour le modèle, où on explique le prix en fonction de l’âge, on utilise les commaneds suivantes:
On représente enfin la droite de régression sur le nuage:
On propose d’essayer à présent le modèle “complet”
Question 13 Donner, à l’aide de la fonction regression des estimations sans biais des paramètres (γ,α1,α2) et σ2.
Question 14 Test de l’utilité d’un régresseur: Tester, au niveau 5%, l’hypothèse nulle “le kilométrage n’a pas d’effet sur le prix” contre “c’est faux”.
La fonction regression n’effectue pas le test demandé (quel test effectue-t-elle?). Ecrire les commandes Scilab permettant de calculer la statistique et la p-valeur du test demandé, et conclure.
Question 15 A l’aide de la question précédente, déterminer quel sous-modèle, parmi les deux sous-modèles à un seul régresseur, explique le mieux le prix?