Objectifs de la séance

  • Manipulation de données
    • Utiliser un tableur
    • Construire un tableau de données :
      • faire le lien entre des mesures sur des individus et un tableau de données,
      • réfléchir à la notion de dimensions d’un tableau de données.
  • Visualisation de données
    • Représentation d’une variable quantitative en fonction d’une variable qualitative
  • Analyse de données
    • Comprendre les mécanismes derrière une analyse de variance
  • Puissance des tests
    • Effet de la taille de l’échantillon
    • Etude par simulations
  • Analyse Post-Hoc (si test global significatif)
    • Comparaison entre paires de modalités
    • Tests d’hypothèses plus complexes par contrasts

Exercices

Contrôle en usine

Les données sur lesquelles vous allez travailler sont extraites du livre Statistique de Wonnacott et Wonnacott. Pour cet exercice vous allez construire 3 tableaux de données dans un tableur, que vous allez importer. Le premier sera constitué de données de 3 échantillons de la production d’une seule machine, le second et le troisième seront constitués d’échantillons issus de la production de 3 machines. Toutes les machines produisent des financiers aux amandes de forme rectangulaire. On mesure la longueur en cm de ces financiers.

Construction des tableaux de données et importation des données dans R

Utiliser un tableur

Les données du premier tableau sont des mesures de conformation de la production de financiers sur une même machine à trois périodes différentes. Pour chacune des trois périodes (matin, après-midi et soir), on prélève 5 gâteaux (de forme rectangulaire) dont on mesure la longueur en cm.

  • Pour le matin, les cinq financiers sont de longueur : 4.9, 5.5, 5.1, 5.2, 4.8.

  • Pour l’après-midi, les cinq financiers sont de longueur :5.2, 5.1, 5.5, 5.8, 4.9.

  • Pour le soir, les cinq financiers sont de longueur : 5.5, 5.1, 5.2, 5.2, 5.0.

Une autre expérience, consiste à mesurer des financiers en sortie de 3 machines différentes.

  • Pour la machine 1, nous avons les mesures suivantes : 4.7, 4.9, 5.3, 5.0, 4.6.

  • Pour la machine 2, nous avons les mesures suivantes : 5.5, 5.8, 5.4, 6.1, 5.2.

  • Pour la machine 3, nous avons les mesures suivantes : 5.4, 5.1, 5.0, 5.1, 4.9.

Rentrer les données dans un tableur de votre choix (Calc de la suite LibreOffice ou OpenOffice, Excel de la suite Microsoft Office, par exemple). Pour cela, il faudra bien réfléchir à la notion d’individu statistique, et aux variables qui les caractérisent.

Sauver les tableaux de données dans deux fichiers csv.

Importations et premières descriptions

  • Importer les deux tableaux respectivement dans tab1 et tab2

  • Pour chaque tableau, représenter les répartitions et calculer les moyennes et écarts type pour chaque groupe

Tests statistiques

  • Pour chaque tableau rappeler le cadre du test de l’étude d’un effet de la variable qualitative sur les mesures de longueur de financier (modèle, hypothèses, statistique de test, loi de la statistique sous H\(_0\), décision)

  • Effectuer alors les calculs par R et conclure

  • Mêmes questions pour les comparaisons de groupes deux à deux.

Puissance

De nouveaux financiers sont prélevés sur la même machine que les données de tab1.

  • Charger les données contenues dans le fichier financiers3.csv dans un objet que vous nommerez tab3

  • Effectuer l’analyse de variance comme réalisée précédemment sur ce nouveau tableau et commenter les résultats

  • Rappeler le principe de puissance d’un test. Quelles sont les éléments qui permettent d’augmenter théoriquement la puissance

  • A l’aide de la fonction bind_rows(), il est possible de concaténer les lignes des tableaux tab1 et tab3

  • Effectuer l’analyse de variance et les comparaisons de moyennes comme réalisées précédemment sur ce nouveau tableau et commenter les résultats

Dégustation de compotes

Problématique

On cherche à évaluer comment sont perçues 6 compotes de pommes au niveau de la saveur de pomme crue. Une dégustation est mise en place et 6 juges vont déguster chacune des 6 compotes. Les notes sont attribuées sur une échelle allant de 0 à 10.

La question est donc de savoir si certaines compotes sont en moyenne perçues comme ayant une plus forte saveur de pomme crue.

Importation du premier jeu de données

  • Importez le jeu de données intial compote.csv.

  • Visualiser les données pour avoir une idée des saveurs de pomme crue selon les compotes et calculez quelques statistiques descriptives par compote.

Test statistique

On cherche à savoir si la saveur de pomme crue est différente selon la compote.

Test global (=Effet des facteurs)
  • Rappeler le cadre du test de l’étude d’un effet de la variable compote sur les notes de saveur pomme crue (modèle, hypothèses, statistique de test, loi de la statistique sous H\(_0\), décision)

  • Effectuer alors les calculs par R et conclure

Prise en compte de la variable juge

Surpris du résultat, on décide de prendre en compte la variable juge.

  • Visualisez les notes en fonction de la compote mais en coloriant les points de couleurs différentes selon les juges.

  • Essayer d’écrire le modèle et les hypothèses permettant de tester l’effet compote sur la saveur mais en prenant en compte l’effet du juge.

  • Réaliser le test avec R.

mod2.compote <- LinearModel(S.pom.crue ~ compote + juge, data=dta)
mod2.compote$Ftest
  • Dans le modele mod1.compote, où se trouve la variabilité associée aux juges ? Pourquoi cela est-il gênant lorsqu’on s’intéresse à tester un effet compote ?

  • Comment interpréter les résultats de la commande suivante ?

meansComp(mod2.compote, ~ compote)

Conclusion de l’étude

Il est indispensable de lister tous les facteurs qui peuvent influer sur la variable réponse, même si ceux-ci ne sont pas intéressants à interpréter. Cela permet de réduire la variabilité résiduelle et par suite de mieux mettre en évidence l’effet potentiel qui nous intéresse.

Le vocabulaire de la séance

Commandes R

  • LinearModel
  • meansComp

Statistique

  • Effet de la taille d’échantillon sur la puissance de détection
  • Test d’analyse de la variance
  • Test post-hoc (comparaison entre modalités d’un facteur)