Thèse – Xiangtuo Chen – 04/07/19

Mr. Xiangtuo CHEN (2015-2019)

Titre: Méthodologie d’apprentissage statistique exploitant la diversité des scénarios environnementaux dans les données de cultures. Application à la prévision de récoltes  à grandes échelles.

Directeur de thèse: Paul-Henry COURNEDE

Lieu: CentraleSupélec, Gif-sur-Yvette             Salle: Sc.165

Mots-clés: Apprentissage statistique, la diversité, scénarios environnementaux, Prévision, Grandes échelles

Résumé:

La prévision du rendement des cultures est toujours une question primordiale. De nombreuses recherches ont été menées avec cet objectif en utilisant diverses méthodologies. Généralement, les méthodes peuvent être classées en approches basées sur les modèles et en approches basées sur les données. Les approches basées sur les modèles reposent sur la modélisation mécaniste des cultures. Ils décrivent la croissance des cultures en interaction avec leur environnement comme systèmes dynamiques. Comme ces modèles sont basés sur la description mécanique des processus biophysiques, ils impliquent potentiellement un grand nombre de variables d’état et de paramètres, dont l’estimation n’est pas simple. En particulier, les problèmes d’estimation des paramètres résultant sont généralement non linéaires et conduisent à des problèmes d’optimisation non-convexes dans un espace multidimensionnel. De plus, l’acquisition de données est très difficile et nécessite un travail expérimental lourd afin d’obtenir les données appropriées pour l’identification du modèle. D’un autre côté, les approches basées sur les données pour la prévision du rendement nécessitent des données provenant d’un grand nombre de scénarios environnementaux, mais les données sont plus simples à obtenir: (données climatiques et rendement final). Cependant, les perspectives de ce type de modèles se limitent principalement à la prévision de rendement. La première contribution originale de cette thèse consiste à proposer une méthodologie statistique pour calibrer les modèles mécanistes potentiellement complexes, lorsque des ensembles de données avec différents scénarios environnementaux et rendements sont disponibles à grande échelle. Nous l’appellerons Méthodologie d’estimation de paramètres multi-scénarios (MuScPE). Les principales étapes sont les suivantes: Premièrement, nous tirons parti des connaissances préalables sur les paramètres pour leur attribuer des distributions a priori pertinentes et effectuons une analyse de sensibilité globale sur les paramètres du modèle afin de sélectionner les paramètres les plus importants à estimer en priorité. Ensuite, nous mettons en œuvre une méthode d’optimisation efficace non convexe, l’optimisation parallèle des essaims de particules, pour rechercher l’estimateur MAP (maximum a posteriori) des paramètres; Enfin, nous choisissons la meilleure configuration en ce qui concerne le nombre de paramètres estimés par les critères de sélection de modèles. Il y a en effet un compromis à trouver entre d’un côté l’ajustement aux données, et d’un autre côté la variance du modèle et la complexité du problème d’optimisation à résoudre. Cette méthodologie est d’abord testée avec le modèle CORNFLO, un modèle de culture fonctionnel pour le maïs. La seconde contribution de la thèse est la comparaison de cette méthode basée sur un modèle mécaniste avec des méthodes classiques d’apprentissage statistique basées sur les données. Nous considérons deux classes de méthodes de régression: d’une part, les méthodes statistiques dérivées de la régression linéaire généralisée qui permettent de simplifier le modèle par réduction dimensionnelle (régressions Ridge et Lasso, Régression par composantes principales ou régression partielle des moindres carrés) et d’autre part les méthode de régression de machine learning basée sur des modèles non-linéaires ou des techniques de ré-échantillonnage comme la forêt aléatoire, le réseau de neurones et la régression SVM. Enfin, une régression pondérée est appliquée pour prédire la production à grande échelle. La production de blé tendre, une culture de grande importance économique en France, est prise en exemple. Les approches basées sur les modèles et sur les données ont également été comparées pour déterminer leur performance dans la réalisation de cet objectif, ce qui est finalement la troisième contribution de cette thèse.

 

 

Les commentaires sont clos.