Le problème qui suit est inspiré d’un stage de fin d’études réalisé par une étudiante de la spécialisation Science des données du cursus d’ingénieur agro-alimentaire d’Agrocampus.
Un groupe industriel commercialisant du café souhaite comparer les cafés provenant de différents lieux de production à partir de leur profil de composition physico-chimique, dont une des composantes importantes est le taux de matière sèche (DM). Pour cela, il s’appuie sur des données contenant le lieu de production, codé par un entier allant de 1 à 7, de 240 mesures de café disponible sur l’onglet Scripts et données de la page d’accueil du module.
Importer le fichier de données cafe_DM.csv disponible sur la page des jeux de données dans un objet nommé cafe en utilisant un script TD5_script.R que vous aurez créé dans votre répertoire de projet.
Quels sont les noms des variables de ce tableau de données ?
La nature de chacune de ces variables, telle que déclarée dans R, correspond-elle à vos attentes ?
Après cette transformation, la nature de chacune de ces variables correspond-elle finalement à vos attentes ?
On cherche à répondre à la question suivante : Les taux de matière sèche moyens à l’échelle de toute la production diffèrent-ils d’un site à l’autre ?
Donner l’expression du modèle statistique M\(_1\) permettant de répondre à cette question ? Quels sont les paramètres de ce modèle ?
Quelles sont les hypothèses H\(_{0}\) et H\(_{1}\) du test de l’existence de différences moyennes de taux de matière sèche entre les sites de production ? Exprimer ces hypothèses à partir des paramètres du modèle de la question précédente.
Donner l’expression mathématique du modèle sous l’hypothèse nulle H\(_0\).
Quelle est la valeur estimée de l’écart-type résiduel du modèle M\(_{1}\) ?
Quelle est l’expression de la statistique de test permettant de tester l’existence de différences de moyennes entre les lieux de production ? Quelle est la valeur prise par cette statistique de test ?
Quelle est la distribution \(\mathcal{F}_{0}\) sous l’hypothèse H\(_{0}\) de la statistique de test \(F\) introduite à la question précédente ?
Répondre à la problématique
Pour le site de production 3, rappeler le cadre du test de nullité du coefficient associé (hypothèses, interprétation des hypothèses, statistique de test, loi sous H\(_0\), décision)
Commenter le résultat de comparaison par paires des différents sites de production obtenu à l’aide de la fonction meansComp
meansComp(res, ~Localisation)
## $adjMean
## Localisation emmean SE df lower.CL upper.CL
## 1 90.40 0.05483 233 90.29 90.51
## 2 90.26 0.07604 233 90.11 90.41
## 3 89.69 0.07604 233 89.54 89.84
## 4 91.37 0.10754 233 91.15 91.58
## 5 90.13 0.08267 233 89.97 90.30
## 6 89.99 0.04231 233 89.90 90.07
## 7 90.50 0.08895 233 90.33 90.68
##
## Confidence level used: 0.95
##
## $groupComp
## 3 6 5 2 1 7 4
## "a" "b" "bc" "cd" "cd" "d" "e"
##
## attr(,"class")
## [1] "meansComp"