Séquençage à ultra-haut débit, bioinformatique et machine learning comme outil de diagnostic de la santé des sols

L’impact des modes d’exploitation agricoles et des pesticides sur la qualité et la santé des sols est une préoccupation croissante chez les consommateurs, exploitants et gestionnaires des sols. Pour évaluer cet impact, des bioindicateurs tels que les protistes ont un grand potentiel, mais leur utilisation reste limitée car les méthodes actuelles ne permettent pas d’analyser les échantillons de sol de manière détaillée et rapide. Pour surmonter ces inconvénients, l’identification des espèces basée sur des séquences d’ADN (appelé « code-barres » ou « meta-barcoding ») couplée aux nouvelles techniques de séquençage à ultra-haut débit représente une approche prometteuse. Cependant, l’énorme quantité de séquences et leur grande complexité rend difficile leur traitement par des moyens conventionnels. Il devient donc essentiel de développer des méthodes alliant bio-informatique et Machine Learning (ML) pour (i) quantifier, analyser et traiter les séquences de protistes ; (ii) identifier et sélectionner les bioindicateurs (un sous-ensemble de protistes) associés à différents facteurs de stress ; mais également pour (iii) modéliser leur abondance relative en fonction des différentes conditions, menant ainsi à la construction de modèles prédictifs de diagnostiques.

Dans un premier temps, nous avons déterminé la composition des communautés de protistes de 28 vignobles valaisans grâce au meta-barcoding. Ensuite, nous avons comparé les performances prédictives de différents algorithmes de ML pour prédire un set de variables caractérisant la qualité du sol (ex : pH, teneur en cuivre). Nos résultats novateurs ont démontré que le profile taxonomique des communautés de protistes peut être utilisée pour prédire un large éventail de variables, y compris la présence de pesticides (cuivre) dans les sols. Sur le plan taxonomique, les groupes de protistes incluant le plus grand nombre de bioindicateurs étaient les Ciliophora et Cercozoa. Sur le plan fonctionnel, la majorité des bioindicateurs correspondaient à des taxons hétérotrophes, mais certaines variables (biomasse végétale et pH du sol) étaient principalement prédites par des taxons photosynthétiques. Nos analyses nous ont permis de développer des scripts permettant d’identifier les biomarqueurs et prédire différents paramètres du sol.

Valorisation

PEÑA C.-A., BROCHET X., FOURNIER B., HEGER T., Quantitative monitoring of agricultural soils using protist communities, SIB day 2020, 8 – 10 juin 2020, Lausanne, Suisse

HEGER T. J., JIBRIL M., STEINER M., XAVIER B., LAMY F., MOTA M., NOLL D., BACHER S., PENA C., Protist communities in vineyard soils: what do they tell us about soil quality and health? Joint meeting of the phycological society of America and the international society of protistologists, 29 juillet – 2 août 2018, Vancouver, Canada

MAMMERI J., BROCHET X., HEGER T., BACHER S., STEINER M., PENA C., MaLDIveS: Machine Learning Diagnostic Soil. SIB days 2018 (Swiss Institute of Bioinformatics), 26-27 juin 2018, Lausanne, Suisse

Responsable du projet Dr. Thierry Heger Professeur de sciences du sol T +41 22 363 40 73

2017 – 2020

Partenaire: HEIG-VD

Financement: HES-SO