Objectifs de la séance

  • Puissance des tests
    • Effet de la taille de l’échantillon
    • Effet de la variance
    • Effet de l’écart entre les 2 moyennes
    • Prise en compte d’un 2ème facteur en analyse de variance

Exercices

On a simulé 5 variables quantitatives indépendantes (\(Y_1\), \(Y_2\), \(Y_3\), \(Y_4\) et \(Y_5\)) en tirant des valeurs dans une loi normale de moyenne \(\mu_A\) et de variance \(\sigma_A^2\) pour les \(n/2\) premières données et de moyenne \(\mu_B\) (différente de \(\mu_A\)) et de variance \(\sigma_B^2\) (égale à \(\sigma_A^2\)) pour les \(n/2\) dernières données. L’objectif est ici de voir dans quelles situations les tests de comparaison de moyenne permettent de mettre en évidence l’écart de moyenne qui existe entre \(\mu_A\) et \(\mu_B\).

Les situations sont les suivantes :

  • pour \(Y_1\) : \(n=100\), \(\mu_A=0\), \(\mu_B=1\) et \(\sigma_A=\sigma_B=1\)
  • pour \(Y_2\) : \(n=100\), \(\mu_A=0\), \(\mu_B=0.1\) et \(\sigma_A=\sigma_B=1\)
  • pour \(Y_3\) : \(n=100\), \(\mu_A=0\), \(\mu_B=0.1\) et \(\sigma_A=\sigma_B=0.05\)
  • pour \(Y_4\) : \(n=10\), \(\mu_A=0\), \(\mu_B=1\) et \(\sigma_A=\sigma_B=1\)
  • pour \(Y_5\) : \(n=10\), \(\mu_A=0\), \(\mu_B=0.1\) et \(\sigma_A=\sigma_B=1\) mais les données dépendent aussi d’un second facteur

Effet de la variance et de l’écart entre moyennes sur la puissance des tests

Importation du premier jeu de données

  • Importez le jeu de données intial puissance_1.csv.

  • D’après vous, et sans faire de calcul, quelles sont les situations où il y a le plus de puissance

  • entre \(Y_1\) et \(Y_2\) ?

  • entre \(Y_2\) et \(Y_3\) ?

  • entre \(Y_1\) et \(Y_4\) ?

Visualisation des données

  • Visualisez les variables \(Y_1\) pour voir s’il y a un éventuel effet de la variable qualitative fac1.
  • Calculez les statistiques descriptives par modalité
  • D’après vous, et à partir des graphes seulement, est-ce que le test de comparaison de moyenne sera significatif ?
  • Faire de même pour \(Y_2\) et \(Y_3\)

Test statistique

Test de comparaison de moyenne et anayse de variance à 1 facteur
  • Tester la significativité de la différence de moyennes de \(Y_1\) quand le facteur fac1 prend les modalités A et B (2 tests sont possibles). Faire de même avec \(Y_2\) et \(Y_3\).

Calcul de puissance avec la fonction power.t.test

A l’aide de la fonction power.t.test, déterminer dans quelle situation, entre celles qui ont permis les simultations de \(Y_1\), \(Y_2\), \(Y_3\) et \(Y_4\), la puissance de détecter une différence de moyenne est la plus importante.

Commenter par rapport à la question 1.1.

Remarque : l’utilisation de la fonction power.t.test nécessite ici de connaître la différence de moyenne et l’écart-type sans incertitude.

power.t.test(n=50, delta=1,sd=1,sig.level=0.05)
## 
##      Two-sample t test power calculation 
## 
##               n = 50
##           delta = 1
##              sd = 1
##       sig.level = 0.05
##           power = 0.9986074
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Effet de la taille de l’échantillon et de la prise en compte d’un second facteur sur la puissance des tests

  • Importez le jeu de données intial puissance_2.csv.

Visualisation des données

  • Visualisez les variables \(Y_4\) et \(Y_5\) pour voir s’il y a un éventuel effet de la variable qualitative fac1.
  • Calculez les statistiques descriptives par modalité

Prise en compte d’un 2ème facteur

  • Visualisez la réponse Y5 en fonction du facteur fact mais en coloriant les points de couleur différente selon le facteur fact2.

Tests

  • Ecrire le modèle et les hypothèses permettant de tester l’effet de la variable fact sur Y4. Faire de même avec Y5 mais en prenant en compte l’effet de la variable fact2.

Calcul de la puissance d’un test

On veut mettre en évidence un potentiel effet entre deux traitements A et B. On sait que l’écart-type de la variable réponse est de 1 mais la moyenne peut différer selon le traitement. On veut détecter une différence de moyenne si celle-ci dépasse 0.2. Combien faut-il faire de mesure si on veut détecter dans 80% des cas une telle différence au seuil 95% (utiliser la fonction power.t.test) ?

Conclusion de l’étude

La puissance des tests augmente quand (rayer les mentions inutiles) :

  • la variance augmente,
  • le nombre d’individus augmente,
  • l’écart entre les moyennes augmente.

Si un 2ème facteur a un effet significatif, il faut (rayer les mentions inutiles) :

  • ne pas mettre ce 2ème facteur dans le modèle modèle,
  • mettre ce 2ème facteur dans le modèle et interpréter la significativité du test qui lui est associé associé sans regarder le test du 1er facteur
  • mettre ce 2ème facteur dans le modèle, même si celui-ci n’est pas intéressant à interpréter

Le vocabulaire de la séance

Commandes R

  • t.test
  • anova
  • power.t.test
  • Anova (package car)

Environnement R

Statistique

  • Test de comparaison de moyenne
  • Test d’analyse de la variance
  • Puissance des tests