Objectifs de la séance

  • Visualisation de données
    • Visualiser les relations entre une variable quantitative et deux variables qualitatives
    • Visualiser de potentielless interactions entre facteurs
  • Analyse de données
    • Comprendre la notion d’interaction entre deux facteurs
    • Comprendre le modèle d’analyse de la variance à deux facteurs
    • Ajuster un modèle d’analyse de la variance à deux facteurs et exploiter les résultats qui en découlent

Exercices

Étude de la croissance en poids de poussins en fonction du sexe et de trois traitements

Lors de leur mise en incubateur, 45 oeufs de poules ont été répartis de façon aléatoire en trois lots de 15. Trois traitements (températures d’incubation différentes) ont ensuite été appliqués aux différents lots. Nous supposons qu’après éclosion, les poussins ont tous été élevés dans des conditions identiques, puis pesés à un même âge de référence. À ce moment, le sexe des poussins, dont on sait a priori qu’il induit de fortes différences de poids, pouvait aussi être observé. La modalité 1 (respectif 2) de la variable Sexe correspond à Male (respetivement Femelle).

L’objectif est de choisir le traitement qui maximise le poids des poussins.

Importation des données et visualisation

Les données sont disponibles dans le fichier poussin.txt.

  • Importer les données. La colonne Rdt indique le gain de poids entre la naissance et le jour de pesée.

  • Proposer un graphique permettant de visualiser un potentiel effet Sexe d’une part, puis un potentiel effet Traitement.

  • Qu’est ce que le code ci-dessous permet de visualiser ?

poussins_dta %>% 
  group_by(Sexe, Trait) %>% 
  summarise(Rdt_groupe = mean(Rdt)) %>% 
  ggplot() +
  aes(x = Trait, y = Rdt_groupe, color = Sexe) +
  geom_line(aes(group = Sexe)) +
  geom_point()

Modélisation

  • Préciser les différents effets qui peuvent être pris en compte dans un modèle.

  • Construire le modèle et sélectionner le “bon” sous-modèle.

  • Que pouvez-vous conseiller comme traitement pour les éleveurs ? Est-ce en adéquation avec les moyennes des rendements par traitement ? Si ce n’est pas le cas, expliquer le paradoxe.

Etude du rendement fromager

Un laboratoire d’analyse souhaite mettre en évidence l’influence de la composition du lait sur le rendement fromager. Pour ce faire, il a mesuré sur un échantillon de n = 85 laits, la densité, le taux butyreux, le taux de protéine, le taux de caséine, l’extrait sec et le rendement fromager de chacun de ces laits.

Importation du jeu de données et matrice des corrélations

  • Charger les données provenant du fichier lait.txt.
  • Etudier les corrélations en adaptant le code fourni au TD 9.

Modélisation et prédiction

  • Construire le modèle permettant de prédire le rendement et sélectionner le sous-modèle adapté.
  • Commenter les estimations des coefficients (rappeler le test effectué pour un coefficient en rappelant les hypothèses, la statistique de test et sa conclusion).
Les mesures sur un nouvel échantillon de lait sont les suivantes :
DENSITE BUTYREUX PROTEINE CASEINE EXTRAITSEC
1.03 37.7 35.7 28.5 127.1
  • A l’aide de la fonction predict, déterminer l’intervalle de confiance associé à ce rendement moyen.

  • Déterminer l’intervalle de prédiction associé à l’estimation du rendement d’un tel lait.

Le vocabulaire de la séance

Commandes R

  • LinearModel
  • compMeans

Environnement R

Statistique

  • Analyse de la variance à 2 facteurs

  • Comparaison des niveaux d’un facteur

  • Test d’égalité d’un coefficient à une valeur