Objectifs de la séance

  • Manipulation de données
    • Utiliser un tableur
    • Construire un tableau de données :
      • faire le lien entre des mesures sur des individus et un tableau de données,
      • réfléchir à la notion de dimensions d’un tableau de données.
  • Visualisation de données
    • Représentation d’une variable quantitative en fonction d’une variable qualitative
  • Analyse de données
    • Comprendre les mécanismes derrière une analyse de variance

Exercices

Les données sur lesquelles vous allez travailler sont extraites du livre Statistique de Wonnacott et Wonnacott. Pour cet exercice vous allez construire 3 tableaux de données dans un tableur, que vous allez importer. Le premier sera constitué de données de 3 échantillons de la production d’une seule machine, le second et le troisième seront constitués d’échantillons issus de la production de 3 machines. Toutes les machines produisent des financiers aux amandes de forme rectangulaire. On mesure la longueur en cm de ces financiers.

Construction des tableaux de données et importation des données dans R

Utiliser un tableur

Les données du premier tableau sont des mesures de conformation de la production de financiers sur une même machine à trois périodes différentes. Pour chacune des trois périodes (matin, après-midi et soir), on prélève 5 gâteaux (de forme rectangulaire) dont on mesure la longueur en cm.

  • Pour le matin, les cinq financiers sont de longueur : 4.9, 5.5, 5.1, 5.2, 4.8.

  • Pour l’après-midi, les cinq financiers sont de longueur : 5.2, 5.1, 5.5, 5.8, 4.9.

  • Pour le soir, les cinq financiers sont de longueur : 5.5, 5.1, 5.2, 5.2, 5.0.

Une autre expérience, consiste à mesurer des financiers en sortie de 3 machines différentes.

  • Pour la machine 1, nous avons les mesures suivantes : 4.7, 4.9, 5.3, 5.0, 4.6.

  • Pour la machine 2, nous avons les mesures suivantes : 5.5, 5.8, 5.4, 6.1, 5.2.

  • Pour la machine 3, nous avons les mesures suivantes : 5.4, 5.1, 5.0, 5.1, 4.9.

Rentrer les données dans un tableur de votre choix (Calc de la suite LibreOffice ou OpenOffice, Excel de la suite Microsoft Office, par exemple). Pour cela, il faudra bien réfléchir à la notion d’individu statistique, et aux variables qui les caractérisent.

Sauver les tableaux de données dans deux fichiers csv.

Importer les tableaux de données dans R

De même que pour les séances précédentes, vous allez importer les tableaux de données en utilisant un script TD4_script.R que vous aurez créé dans votre répertoire de projet.

Stocker le premier tableau importé dans un objet appelé tab1, et le second tableau importé dans un objet appelé tab2. Par la suite, pour tab1, on appelle periode la variable qui désigne le moment où l’échantillon a été prélevé, et pour tab2, on appelle machine la variable qui désigne la machine qui a produit l’échantillon prélevé ; longueur est le nom de la variable qui désigne la longueur des financiers aux amandes pour les deux jeux de données tab1 et tab2.

Attention, les variables periode et machine sont des variables qualitatives et doivent être considérées comme telles par R.

Visualisation des données

Visualiser les données des jeux tab1 et tab2 en vous inspirant du code des séances précédentes ; afficher pour chaque graphique un titre permettant d’identifier le jeu de données représenté.

Pour tab1, calculer les longueurs moyennes par période ainsi que la longueur moyenne d’un financier de la machine 1. Pour tab2, calculer les longueurs moyennes par machine.

Que pensez-vous des différences entre les moyennes calculées pour tab1 d’une part, pour tab2 d’autre part ? Sont-elles du même ordre de grandeur d’un jeu de données à l’autre ? Que suggèrent les différences entre les moyennes calculées pour tab2 ?

Comparaison des données issues de 3 machines différentes

Les machines d’un autre atelier

La même expérimentation pour celle présente dans le tableau2 a été menée dans un autre atelier. les données sont disponibles dans le fichier financiers3.csv

  • Importer le tableau de données dans R, dans un objet que vous appellerez tab3. De même que pour tab2, on appelle machine la variable qui désigne la machine ; longueur est le nom de la variable qui désigne la longueur des financiers aux amandes.

Pour tab3, calculer les longueurs moyennes des financiers produits pour chaque machine.

  • Que pensez-vous des différences entre les moyennes calculées pour tab2 d’une part, pour tab3 d’autre part ?

  • Que pensez-vous de la régularité des machines du jeu de données tab2 ? Les machines de ce jeu de données vous semblent-elles plus régulières que celles de tab3 ?

Modèle statistique pour un effet groupe

  • Tester l’effet de la machine sur la longueur des financiers pour les données issues de tab2 d’une part, tab3 d’autre part. Il s’agit ici :
    • d’écrire le modèle statistique
    • de préciser les hypothèses de test
    • de mettre ce test en oeuvre sur R et de conclure sur l’homogénéité de la production.

La table d’analyse de variance

Comme son nom ne l’indique pas forcément, la table d’analyse de variance n’est pas un résultat spécifique du modèle d’analyse de la variance ; vous la retrouverez également quand vous chercherez à expliquer une variable quantitative par une autre variable quantitative.

Après avoir testé l’effet de la machine sur la longueur des financiers pour les données issues de tab2 d’une part et de tab3 d’autre part, commenter les tables issues de la fonction anova appliquée aux résultats produits par la fonction lm.

RSS\(_{0}\)-RSS mesure le gain apporté par le modèle proposé par rapport au modèle nul, c’est la somme des carrés du modèle SCM.

La somme des carrés des écarts résiduels, RSS, est la somme des \((Y_{ij}-\bar{Y_{i.}})^2\) ; autrement dit, c’est la somme des écarts au carré entre la valeur observée et la valeur moyenne propre à chaque modalité.

Le vocabulaire de la séance

Commandes R

  • anova

Environnement R

Statistique

  • Table d’analyse de la variance