Objectifs de la séance

  • Visualisation de données
    • Visualiser les relations entre deux variables quantitatives
  • Analyse de données
    • Comprendre le modèle de régression
    • Ajuster un modèle de régression et exploiter les résultats qui en découlent

Exercices

Problématique

La fédération française de rugby sélectionne des joueurs de moins de 15 ans pour des stages pendant les vacances scolaires. 500 jeunes sont sélectionnés chaque année selon leur potentiel, et la vitesse au 50m est une de ces mesures. Cependant, la tranche d’âge des joueurs sélectionnés (moins de 15 ans) est d’1 an et les joueurs nés en début d’année civile ont un développement physiologique plus important que les joueurs nés en fin d’année. Pour éviter un biais de sélection et défavoriser les joueurs plus jeunes, la fédération de rugby souhaite relativiser la performance en fonction du mois de naissance. Pour cela, elle a enregistré les performances de 72 jeunes nés lors d’une même année civile et passant un test de vitesse de 50m. Notez qu’ici, seules les vitesses des joueurs jouant à l’arrière (et donc qui courent vite) sont comparées.

  • Calculer le coefficient de corrélation entre la vitesse et le mois de naissance

  • Construire le modèle permettant de prédire la vitesse en fonction du mois de naissance. Interprétez les coefficients du modèle

  • Prédire la performance moyenne d’un joueur né en janvier, et celle d’un joueur né en décembre.

  • Donner les performances des deux premiers joueurs du jeu de données.

  • Comparer les performances des 2 premiers joueurs du jeu de données en relativisant par rapport à leur âge.

  • Représenter les intervalles de prédiction en fonction du mois de naissance à l’aide des commandes suivantes

pred_interval <- predict(res,  interval="prediction", level = 0.95)
pred_interval <- data.frame(pred_interval,MoisNais=don$MoisNais)
ggplot() +  geom_point(data = don, aes(x=MoisNais, y=vitesse)) +
  geom_smooth(method="lm", se=TRUE) +
  ggtitle("Effet du mois de naissance sur la performance")+
  scale_x_continuous(breaks=1:12)+
  xlab("Mois de naissance")+
  ylab("Vitesse (m/s)") +
  geom_ribbon(data=pred_interval, aes(x = MoisNais, ymin = lwr, ymax = upr), fill = "blue", alpha = 0.1)

Le vocabulaire de la séance

Commandes R

  • cor.test
  • LinearModel
  • geom_smooth

Environnement R

Statistique

  • Régression linéaire
  • Test de corrélation de Pearson