Table of Contents
Dans les expériences de terrain, l’étude des corrélations entre les traits observés peut s’avérer complexe. Prenons l’exemple d’un essai génétique organisé en blocs complets randomisés, comprenant 27 génotypes de blé et trois répliques, où plusieurs traits ont été enregistrés, notamment le rendement et le poids de mille grains. Nous pourrions être intéressés par la corrélation entre ces deux traits, mais deux problèmes fondamentaux se posent.
Problèmes de Corrélation
Tout d’abord, le concept de corrélation dans un tel contexte n’est pas unique. Nous pourrions considérer la corrélation entre les mesures des parcelles, entre les résidus, entre les moyennes des génotypes ou entre les moyennes des blocs. Ensuite, les unités expérimentales ne sont pas indépendantes, mais sont regroupées par génotype et bloc, invalidant ainsi toutes les inférences basées sur l’hypothèse d’indépendance.
Solutions Avancées avec les Modèles Mixtes
Dans cet article, je souhaite présenter une solution plus avancée, défendue par Hans-Peter Piepho dans un manuscrit récent. Cette solution repose sur des modèles mixtes et a été mise en œuvre dans SAS à l’aide de PROC MIXED. J’ai passé quelques heures à « transporter » ces modèles dans R, ce qui s’est avéré être une tâche difficile, bien qu’à la fin, j’aie trouvé une solution acceptable que je souhaite partager ici.
Chargement des Données
Nous allons d’abord charger le jeu de données ‘WheatQuality.csv’, qui contient 81 enregistrements de 6 variables, à savoir les facteurs Génotype et Bloc, ainsi que les quatre réponses : hauteur, TKW, poids par hectolitre et rendement. Le code ci-dessous charge les packages nécessaires, les données et transforme la variable numérique ‘Bloc’ en facteur.
rm(list = ls()) library(dplyr) library(sommer) library(nlme) dataset <- read.csv("https://www.casaonofri.it/_datasets/WheatQuality.csv") |> mutate(Block = factor(Block)) head(dataset)
Modèle Bivarié
Selon Piepho, tous les coefficients de corrélation pour un essai comme celui-ci peuvent être estimés par le biais d’un modèle mixte à réponses multiples. Le modèle est construit comme suit :
Y_{ijk} = \mu_i + \beta_{ik} + \tau_{ij} + \epsilon_{ijk}
où \(Y_{ijk}\) est la réponse pour le trait \(i\), le génotype \(j\) et le bloc \(k\). Les résidus doivent être distribués normalement et hétéroscédastiques, avec des variances spécifiques aux traits.
Estimation des Corrélations
Pour obtenir les corrélations, j’ai utilisé la fonction vpredict()
et spécifié les combinaisons nécessaires des paramètres de variance-covariance. Voici les estimations pour la corrélation entre les moyens des génotypes et des blocs :
vpredict(mod.bimix, rg ~ V2 / (sqrt(V1)*sqrt(V3)) vpredict(mod.bimix, rt ~ V5 / (sqrt(V4)*sqrt(V6))
Les résultats montrent que les estimations sont très proches de celles obtenues à l’aide des coefficients de corrélation de Pearson. L’avantage de cette solution de modèle mixte est que nous pouvons également tester des hypothèses de manière relativement fiable.
Conclusion
Bien que l’article traite de solutions complexes pour l’analyse des corrélations dans les expériences de terrain, il reste essentiel de continuer à explorer et à améliorer ces méthodes pour une meilleure compréhension des interactions entre les traits dans le domaine agricole.