e-Lettre N°3 – Le projet GAIA Data

e-Lettre Climeri-France N°3 - Septembre 2022

Outils, projets et groupes de travail

Le projet GAIA Data

GAIA DATAObserver, comprendre et modéliser de manière intégrée l’histoire, le fonctionnement et prévoir l’évolution du système Terre soumis aux changements globaux est un enjeu fondamental de recherche et une nécessité pour de nombreuses applications environnementales et socio-économiques en lien avec la mise en œuvre des objectifs du développement durable.

Accéder à l’ensemble des données des différents sous-systèmes et milieux est indispensable pour aborder les enjeux de société, qu’ils concernent les risques naturels, l’anthropisation des milieux, le changement climatique, les ressources ou les questions de biodiversité et leurs impacts sur la santé.

Différents systèmes d’information existants, ont été mis en place et rendus facilement accessibles, interopérables et réutilisables par l’intermédiaire des pôles nationaux de données d’observation de l’atmosphère, des océans, des surfaces continentales et de la terre solide (IR Data Terra), de biodiversité (IR PNDB) et de simulations climatiques (IR CLIMERI-France). Cependant, le paysage reste fragmenté par domaine, voire par source de données, avec des standards différents et une large gamme de volumes de données pouvant atteindre plusieurs Pétaoctets. Accéder de manière transparente et dynamique à un continuum d'infrastructures interopérables de données et de services distribuées permettant l’extraction, le croisement, l’analyse, la diffusion et l’usage des données et produits dérivés est devenu un enjeu critique pour les sciences du système Terre, de la biodiversité et de l’environnement.

Le projet GAIA Data est porté par ces trois Infrastructures de Recherche numériques, inscrites sur la feuille de route nationale. Il a pour ambition de développer et mettre en oeuvre une infrastructure intégrée et distribuée de données et de services pour l’observation, la modélisation et la compréhension du système Terre, de son climat, de la biodiversité et de l’Environnement. Ce dispositif, basé sur des centres de données et services, interconnectés et pilotés par la science, permettra d’accéder aux différentes sources de données et de disposer d’un continuum de services distribués de stockage (adaptés aux gros volumes de données pour le spatial et la modélisation notamment), de traitements (incluant l’utilisation des moyens de calculs et d’IA), de croisement de données, d’analyse et de visualisation. Des services, adaptés aux besoins des communautés scientifiques, seront proposés sur l’ensemble du cycle de la donnée de son acquisition jusqu’à ses usages multiples.

L’infrastructure distribuée sera construite autour des principaux centres de calcul et de données des 3 infrastructures de recherche :

Pour répondre au besoin d’accès croisé aux données de ces centres, le projet développera une infrastructure de données et de services au travers de :

  • la mise en place d’un réseau dédié haut débit et sécurisé entre ces centres principaux
  • le déploiement d’une grille de données sur ces centres pour permettre un accès distant aux données et le transfert rapide et automatique de grands ensembles de données d’un centre vers un autre
  • une interopérabilité des traitements entre les centres de Gaia Data, ainsi qu’avec les centres HPC en France et en Europe et avec les clouds commerciaux

Les services proposés sur la plateforme Gaia Data comprendront :

  • des services communs de découverte, d’accès et de gestion des données d’observation et de modélisation de l’ensemble du système Terre et de la biodiversité
  • la mise à disposition d’accès rapide de traitement et de visualisation des données et produits grâce au développement d’ensembles de données type datacube ou « Anaysis-Ready data »
  • le développement d’environnements virtuels de recherche accessibles au travers d’interfaces web permettant aussi bien la mise au point et l’exécution de codes sur l’infrastructure distribuée, que la soumission de traitements à la demande au travers de systèmes de workflow et d’interfaces type low/no-code.

L’action Equipements structurants pour la recherche du troisième Programme d’Investissements d’Avenir (PIA3) ou ESR/EquipEx+, vise à soutenir de nouveaux équipements d’envergure nationale pour la recherche scientifique. Cette action participe également de la transformation numérique de la recherche et de l’innovation, tout en favorisant les synergies entre les équipes et entre les disciplines mais également entre recherches publique et privée.

Le projet Gaia Data, soutenu par le PIA 3 à hauteur de 16 M€, s’inscrit dans ce double objectif de doter les sciences du système Terre, de la biodiversité et de l’environnement d’une plateforme numérique de données et de services unifiée permettant les études et développements transdisciplinaires. Grâce au soutien des 21 organismes* partenaires du projet, il s’appuie sur les travaux et les expertises des 30 centres de données et services des IR de CLIMERI et PNDB et des pôles nationaux de Data Terra (Aeris, Formater, Odatis, Theia, Dinamis).

*Organismes partenaires du projet GAIA Data : CNRS, CNES, IRD, INRAE, MNHN, BRGM, Ifremer, Sorbonne Université, Météo-France, CEA, IPGP, Université Grenoble Alpes, Université de Strasbourg, CINES, SHOM, Observatoire de la côte d’Azur, IGN, Université de Lille, Université de Toulouse III, CERFACS, IFB.

Rédacteurs :
K. Ramage (IR Data Terra, IPSL/CNRS), F. Huynh (IR Data Terra, IRD), S. Joussaume (IR ClimERI, CEA), J-D. Vigne (IR PNDB, MNHN), R. Moreno (IR Data Terra, CNES)

En savoir plus