ExtremePrecipit - Caractérisation des précipitations extrêmes horaires en France

1 Contexte et problématique

Le réchauffement climatique global se manifeste de manière particulièrement marquée sur les continents par rapport aux océans. Depuis l’ère préindustrielle, l’augmentation des températures a atteint environ 1,1°C à l’échelle mondiale, 1,7°C en France métropolitaine et jusqu’à 2°C dans les Alpes françaises (1). Ce réchauffement entraîne une modification du régime des précipitations en raison notamment d’une atmosphère plus chaude capable de contenir davantage d’humidité, selon la relation de Clausius-Clapeyron (environ +7% d’humidité par degré Celsius) (1). En théorie, cela conduit à une augmentation des précipitations extrêmes, bien que cette réponse puisse être modulée localement par des changements de circulation atmosphérique (1).

Afin de mieux comprendre l’évolution des précipitations extrêmes dans ce contexte climatique changeant, les chercheurs recourent habituellement à des modèles climatiques globaux (GCMs) ou régionaux (RCMs). Cependant, la résolution spatiale limitée de ces modèles (typiquement de l’ordre de 10 km à plus de 300 km) et la paramétrisation approximative de la convection profonde restreignent leur capacité à représenter fidèlement les phénomènes extrêmes à échelle infra-journalière, particulièrement dans des régions complexes comme les zones méditerranéennes ou montagneuses (2).

Les récents développements en modélisation climatique permettent désormais l’utilisation de modèles régionaux à résolution kilométrique (CP-RCMs, résolution de 1 à 3 km), qui simulent explicitement la convection profonde, offrant ainsi une représentation plus précise des précipitations extrêmes à fine échelle (2). L’objectif principal de ce travail consiste à caractériser et analyser les tendances des précipitations extrêmes horaires en France, en exploitant le modèle régional de climat CNRM-AROME à une résolution spatiale de 2,5 km sur la période 1959-2022. Ce projet repose sur l’application de la théorie des valeurs extrêmes (GEV), en intégrant une approche non stationnaire afin de détecter d’éventuelles tendances au cours des dernières décennies.

2 Données

Ce projet s’appuie sur les données issues du modèle régional de climat CNRM-AROME, forcé par la réanalyse ERA5, couvrant la période allant de 1959 à 2022 avec une résolution spatiale fine de 2,5 km (2). Ce modèle appartient à la catégorie des CP-RCMs, ce qui lui permet de simuler explicitement la convection profonde, élément clé pour capturer correctement les précipitations extrêmes à échelle horaire (2).

Les données pluviométriques horaires recueillies par Météo-France serviront de référence pour la validation du modèle. L’utilisation conjointe de ces deux jeux de données vise à établir la fiabilité du modèle régional dans la représentation des précipitations extrêmes observées et à quantifier l’incertitude associée aux simulations. Cette validation est indispensable pour garantir la pertinence des résultats obtenus concernant les périodes de retour des précipitations extrêmes et leurs évolutions potentielles dans le contexte du changement climatique (1,2).

3 Approche et méthodologie

3.1 Structuration choisie

L’approche mise en œuvre dans ce projet s’inscrit dans une démarche moderne de mise en production. Un pipeline a été développé afin d’automatiser le traitement, la validation et l’analyse des données.

Dans un premier temps, les données brutes du modèle AROME fournies par Météo-France et les relevés des stations météorologiques téléchargées sur la plateforme Météo-France sont intégrées dans un format optimisé .zarr, facilitant ainsi le stockage performant et l’accès rapide aux grandes quantités de données. Cette transformation repose sur des scripts ETL (Extract-Transform-Load), assurant une gestion des données spatiales et temporelles. Une attention particulière est portée à la gestion des métadonnées, indispensables pour assurer la traçabilité et la reproductibilité des résultats. Ces métadonnées permettent notamment la correspondance précise entre les données des stations et la grille spatiale du modèle AROME.

Le pipeline d’analyse inclut ensuite la génération automatique de statistiques détaillées au format .parquet, suivie d’une modélisation statistique approfondie basée sur la théorie des valeurs extrêmes (GEV), permettant de quantifier les périodes de retour et détecter les tendances.

Cette infrastructure bénéficie d’un processus CI/CD complet, géré via GitHub Actions, garantissant ainsi l’automatisation des déploiements. Une image Docker encapsule l’ensemble de l’application Streamlit et le téléchargement des données depuis HuggingFace Datasets vers HuggingFace Spaces, simplifiant ainsi le déploiement. Ce déploiement offre aux utilisateurs finaux des visualisations intuitives et dynamiques (cartographie, graphiques interactifs, métriques), alimentées par une configuration paramétrable. Les résultats et analyses sont également documentés dans des rapports et présentations générés automatiquement avec Quarto, assurant une diffusion claire, transparente et automatique des résultats auprès des parties prenantes.

Figure 1 : Pipeline du projet

3.2 Justification de l’organisation actuelle

Nous avons choisi un partitionnement physique très fin — un fichier Parquet par combinaison (type de donnée / année / saison) — car il colle exactement aux contraintes et aux objectifs du projet avec un besoin analytique ciblé, des données versionnées, une app publique Streamlit gratuite et efficace.

  1. Responsabilité unique et traçabilité Chaque fichier représente une seule unité logique. Si la saison AROME-2022-DJF doit être corrigée, un seul fichier change : cela réduit les risques de régression et simplifie les revues de code / données.

  2. Déploiement statique sur Hugging Face Datasets Le projet se devait être entièrement gratuit. Le stockage HF ne fournit pas de moteur SQL côté serveur ; il sert des objets statiques via HTTP. Un fichier = une URL : c’est pour Streamlit qui télécharge juste ce dont il a besoin.

  3. CI/CD rapide et frugal Le pipeline ne re-génère ni ne re-charge toutes les données « juste au cas où ».

  4. Lisibilité humaine et reproductibilité L’arborescence documente d’elle-même la structure du jeu de données ; pas besoin d’un métastore externe pour comprendre ce qu’on possède. Cela renforce la transparence et la reproductibilité des analyses.

Les outils comme DVC encouragent exactement cette logique. Il serait d’ailleurs intéressant de mettre en place un traking automatiquement des Parquet pour retrouver exactement la version utilisée dans une analyse passée.

4 Technologies utilisées

Ce projet repose sur un écosystème diversifié :

  • Formats de données massives et stockage optimisé : Utilisation de .zarr pour segmenter et stocker efficacement les données climatiques (sortie du modèle AROME et relevés stations) à haute résolution horaire/journalière, avec parallélisation native.

  • Transformation et ingestion automatisées (ETL) : Scripts Python orchestrent le passage de .nc / .csv vers .zarr, ainsi que la production de .parquet pour les analyses statistiques, garantissant traçabilité et performance des traitements.

  • Métadonnées spatiales avancées : Architecture permettant l’association des identifiants de grille GPS et des stations, assurant la cohérence spatiale entre les modèles AROME et les observations terrain.

  • Modélisation statistique : Pipeline dédié à la modélisation GEV, extrait les périodes de retour et tendances, avec scripts reproductibles via modules Python.

  • Orchéstration des pipelines : Airflow permet de planifier, de surveiller et d’exécuter automatiquement les tâches.

  • MLOps & CI/CD :

    • GitHub Actions pilotent le cycle d’intégration, création d’image Docker et mise à jour du dataset Hugging Face.
    • Conteneurs Docker encapsulent l’environnement complet, assurant portabilité et versionnement des dépendances.
  • Déploiement et visualisation :

    • Publication du dataset climatiques versionnés sur Hugging Face Dataset.
    • Création d’une interface Streamlit (cartographie, scatter plots, tableau de bord métriques) pour interaction client dynamique.
  • Reporting et documentation : Utilisation de Quarto pour générer automatiquement rapports HTML/PDF intégrant les résultats statistiques, visualisations et modèles, avec publication automatisée via CI.

Ce dispositif intègre une ingestion automatisée, un stockage évolutif, une modélisation statistique robuste, un packaging reproductible via Docker, et un déploiement vers plateforme interactive. La structure a été conçue pour accueillir des données de façon continuelle.

5 Lien vers le projet

Le code source est accessible sur GitHub : https://github.com/NCSdecoopman/ExtremePrecipit
L’application est accessible sur HuggingFace : https://huggingface.co/spaces/ncsdecoopman/ExtremePrecipit
La présentation est accessible sur le portfolio : https://ncsdecoopman.github.io/ExtremePrecipit/presentation.html

6 Cas d’usage et perspectives

Cette étude présente plusieurs opportunités dans le cadre d’applications pratiques. Premièrement, les résultats permettraient une meilleure anticipation des événements météorologiques extrêmes, essentielle pour la gestion des risques liés aux inondations et aux dégâts associés aux fortes précipitations. Les collectivités territoriales pourraient utiliser ces informations pour adapter leurs plans de prévention des risques naturels (PPRN) et renforcer leur résilience face au changement climatique.

Deuxièmement, l’évaluation fine et spatialisée des précipitations extrêmes horaires fournirait aux gestionnaires des ouvrages hydrauliques, comme EDF, des données cruciales pour optimiser la gestion des réservoirs et la sécurité des barrages en période de crise.

Enfin, à plus long terme, les résultats pourraient servir de base à des projections climatiques locales, alimentant les stratégies d’adaptation au changement climatique dans différents secteurs (urbanisme, agriculture, infrastructures).

7 Références

1.
Blanchet J, Blanc A, Creutin J-D. Explaining recent trends in extreme precipitation in the Southwestern Alps by changes in atmospheric influences. Weather and Climate Extremes. 2021;33:100356.
2.
Caillaud C, Somot S, Alias A, Bernard-Bouissières I, Fumière Q, Laurantin O, et al. Modelling Mediterranean heavy precipitation events at climate scale: an object-oriented evaluation of the CNRM-AROME convection-permitting regional climate model. Climate Dynamics. 2021;56(5):1717‑52.