Objectifs de la séance

  • Puissance des tests
    • Effet de la taille de l’échantillon
    • Etude par simulations
  • Analyse Post-Hoc (si test global significatif)
    • Comparaison entre paires de modalités
    • Tests d’hypothèses plus complexes par contrasts

Exercices

Problématique

Dans une étude menée à l’université de Lyon, des scientifiques s’intéressent à l’association entre le sport pratiqué par un athlète et son développement morphologique. Pour répondre à cette question de recherche, les chercheurs vont chercher à tester l’hypothèse selon laquelle la carrure dépend du sport pratiqué.

Plus précisément, cette étude s’est intéressée à six sports : l’athlétisme, le football, le handball, le judo, la natation et le volley. D’autre part, la carrure a été mesurée par la distance en cm entre les 2 épaules. Pour gagner du temps et limiter les coûts, les chercheurs réalisent un recueil de données où le nombre d’individus observés par sport est égal à \(n_i=3\).

Analyse avec \(n_i=3\)

Importation du premier jeu de données

  • Importer le jeu de données intial dataSportV1.csv. Vérifier que le jeu de données contient bien 18 individus statistiques : 3 individus par sport.

Visualisation des données

  • Visualiser les données pour avoir une idée de la distribution des carrures par sport et calculer quelques statistiques descriptives par sport.
Sport Carrure_mean Carrure_sd
Athletisme 34.73 2.16
Foot 36.07 2.11
Hand 34.80 4.10
Judo 36.47 3.32
Natation 38.60 3.14
Volley 36.17 1.96

Test statistique

  • Traduire la problématique ci-dessus sous la forme d’un test d’hypothèses.
  • Réaliser le test avec R et conclure
Test global (=Effet des facteurs)
## Analysis of Variance Table
## 
## Model 1: Carrure ~ 1
## Model 2: Carrure ~ Sport
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     17 131.26                           
## 2     12 101.45  5    29.816 0.7054 0.6304

Analyse avec \(n_i=13\)

Surpris du résultat, les chercheurs organisent une seconde collecte de données qui permet d’augmenter la taille de l’échantillon avec 10 observations supplémentaires par sport pour arriver à \(n_i=13\).

Importation du jeu de données final

  • Importer les 10 nouveaux individus statistiques à partir de la table dataSportV2.csv. Vérifier que ce nouveau jeu de données contient bien 60 individus : 10 individus par sport.

A l’aide de la fonction bind_rows, créer le jeu de données complet, que vous nommerez data.sport.Vf, contenant les 13 individus statistiques.

Visualisation des données

  • Comme pour le jeu de données initial, visualiser et calculer quelques statistiques descriptives par sport. Comparer avec la visualisation et le résumé obtenu pour \(n_i=3\), en particulier comparer la moyenne et la variance de la carrure par sport.
Sport Carrure_mean Carrure_sd
Athletisme 34.92 2.20
Foot 36.27 2.31
Hand 35.52 3.35
Judo 37.38 2.98
Natation 38.68 3.06
Volley 36.64 2.44

Test statistique

  • Ecrire le modèle et les hypothèses permettant de tester l’effet du sport sur la carrure.
  • Réaliser le test avec R.
Test global (=Effet des facteurs)
Test Post-Hoc (= Comparaison entre les modalités des facteurs)

Si le test est significatif, on cherche à déterminer quels sports permettent de développer des carrures significativement différentes.

  • Exprimer cette question sous la forme d’hypothèses statistiques.

  • A l’aide de la fonction emmeans du package emmeans, tester quelles sont les sports qui, deux à deux, donnent des carrures différentes.

library(emmeans)
sport_comp_Vf <- emmeans(mod.Vf,  ~ Sport )
pairs(sport_comp_Vf, adjust = "bonf")
plot(sport_comp_Vf)

Conclusion de l’étude

L’effet d’un facteur sur une variable réponse doit être testé en premier. Si un facteur a un effet, il est alors possible d’aller creuser quelles sont les modalités (ou les combinaisons de modalités) du facteur qui ont une moyenne de la variable réponse différente.

Le vocabulaire de la séance

Commandes R

  • anova et lm
  • pairwise.t.test
  • emmeans (package emmeans)

Statistique

  • Effet de la taille d’échantillon sur la puissance de détection
  • Test d’analyse de la variance
  • Test post-hoc (comparaison entre modalités d’un facteur)