Objectifs de la séance

  • Puissance des tests
    • Effet de la taille de l’échantillon
    • Etude par simulations
  • Analyse Post-Hoc (si test global significatif)
    • Comparaison entre paires de modalités
    • Tests d’hypothèses plus complexes par contrasts

Exercices

Problématique

Dans une étude menée à l’université de Lyon, des scientifiques s’intéressent à l’association entre le sport pratiqué par un athlète et son développement morphologique. Pour répondre à cette question de recherche, les chercheurs vont chercher à tester l’hypothèse selon laquelle la carrure dépend du sport pratiqué.

Plus précisément, cette étude s’est intéressée à six sports : l’athlétisme, le football, le handball, le judo, la natation et le volley. D’autre part, la carrure a été mesurée par la distance en cm entre les 2 épaules. Pour gagner du temps et limiter les coûts, les chercheurs réalisent un recueil de données où le nombre d’individus observés par sport est égal à \(n_i=3\).

Analyse avec \(n_i=3\)

Importation du premier jeu de données

  • Importer le jeu de données dataSportV1.csv

  • Quelles sont les variables de ce tableau de données ? Quelle est la nature (quantitative/qualitative) de chacune de ces variables ?

  • Sur combien d’individus statistiques ce tableau de données contient-il des informations ?

  • Vérifier que chaque sport est bien représenté dans ces données par trois individus statistiques.

Visualisation des données

  • Visualiser les données pour avoir une idée de la distribution des carrures par sport et calculer quelques statistiques descriptives par sport.
Sport Carrure_mean Carrure_sd
Athletisme 34.73 2.16
Foot 36.07 2.11
Hand 34.80 4.10
Judo 36.47 3.32
Natation 38.60 3.14
Volley 36.17 1.96

Test statistique

  • Traduire la problématique ci-dessus sous la forme d’un test d’hypothèses.
  • Réaliser le test et conclure.
## Analysis of Variance Table
## 
## Model 1: Carrure ~ 1
## Model 2: Carrure ~ Sport
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     17 131.26                           
## 2     12 101.45  5    29.816 0.7054 0.6304
  • En utilisant la fonction power.t.test, donner la différence de carrure détectable par un test de comparaisons des carrures moyennes entre des sportifs pratiquant la natation et l’athlétisme avec une probabilité de 0.90.
## 
##      Two-sample t test power calculation 
## 
##               n = 3
##           delta = 10.76763
##              sd = 3
##       sig.level = 0.05
##           power = 0.9
##     alternative = two.sided
## 
## NOTE: n is number in *each* group
  • Quelle taille d’échantillon est nécessaire pour détecter une différence de carrures moyennes de 5 cm entre les sportifs pratiquant l’athlétisme et la natation ?
## 
##      Two-sample t test power calculation 
## 
##               n = 8.649245
##           delta = 5
##              sd = 3
##       sig.level = 0.05
##           power = 0.9
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Analyse avec \(n_i=13\)

Les chercheurs organisent une seconde collecte de données qui permet d’augmenter la taille de l’échantillon avec 10 observations supplémentaires par sport pour arriver à \(n_i=13\).

Importation du jeu de données final

  • Importer les 10 nouveaux individus statistiques à partir de la table dataSportV2.csv

  • Vérifier que chaque sport est bien représenté dans ces données par dix individus statistiques.

  • A l’aide de la fonction bind_rows, créer le jeu de données complet, que vous nommerez data.sport.Vf, contenant les 13 individus statistiques.

Visualisation des données

  • Comme pour le jeu de données initial, visualiser et calculer quelques statistiques descriptives par sport.

  • Comparer avec la visualisation et le résumé obtenu pour \(n_i=3\). En particulier comparer la moyenne et la variance de la carrure par sport.

Sport Carrure_mean Carrure_sd
Athletisme 34.92 2.20
Foot 36.27 2.31
Hand 35.52 3.35
Judo 37.38 2.98
Natation 38.68 3.06
Volley 36.64 2.44

Test statistique

  • Ecrire le modèle et les hypothèses permettant de tester l’effet du sport sur la carrure.
  • Réaliser le test avec R.
Test Post-Hoc (= Comparaison entre les modalités des facteurs)

Si le test est significatif, on cherche à déterminer quels sports permettent de développer des carrures significativement différentes.

  • Exprimer cette question sous la forme d’hypothèses statistiques.

  • A l’aide de la fonction emmeans du package emmeans, tester quelles sont les sports qui, deux à deux, donnent des carrures différentes.

library(emmeans)
sport_comp_Vf <- emmeans(mod.Vf,  ~ Sport )
pairs(sport_comp_Vf, adjust = "bonf")
plot(sport_comp_Vf)

Conclusion de l’étude

L’effet d’un facteur sur une variable réponse doit être testé en premier. Si un facteur a un effet, il est alors possible d’aller creuser quelles sont les modalités (ou les combinaisons de modalités) du facteur qui ont une moyenne de la variable réponse différente.

Le vocabulaire de la séance

Commandes R

  • anova et lm
  • pairwise.t.test
  • emmeans (package emmeans)

Statistique

  • Effet de la taille d’échantillon sur la puissance de détection
  • Test d’analyse de la variance
  • Test post-hoc (comparaison entre modalités d’un facteur)