La démarche diagnostique appliquée à la donnée.

Depuis quatorze ans, j'analyse et structure des systèmes complexes pour bâtir des solutions robustes, performantes et immédiatement opérationnelles. Mon approche ne se limite pas au code : elle consiste à décoder les signaux faibles au sein d'architectures massives pour garantir une décision juste sous contrainte.

Je combine data engineering de haut niveau, systèmes distribués et DevOps/MLOps avec une capacité éprouvée à architecturer des systèmes production-grade — de l'ingestion de milliards de points à l'industrialisation de modèles IA.

Faits & impact industriel

Calcul distribué & risques climatiques

Action : concevoir une chaîne ELT sur cluster Linux, convertir des grilles massives en formats analytiques, paralléliser l’extraction d’extrêmes et calibrer des modèles statistiques non stationnaires. Résultat : ~10 milliards de points traités (~100 Go), ~80 % de temps de calcul en moins (jusqu’à 96 workers), trajectoire de publication vers une revue A via prépublication EGUsphere (DOI 10.5194/egusphere-2026-1202). Mise en production : orchestration (Airflow), conteneurisation, jeux de données versionnés et diffusion d’une application interactive — le tout maintenu par des pipelines CI/CD.

HPCDaskOrchestrationCI/CD

Produit carte & agrégation multi-sources

Action : fiabiliser l’ingestion de flux hétérogènes (bulletins, stations, webcams, relief, prévisions), normaliser les schémas et industrialiser un pipeline tuilé jusqu’au navigateur. Résultat : une lecture cartographique unique, latence mobile ~100 ms, visibilité open data (mise en avant data.gouv.fr, fin 2025) et usage réel sur le terrain. Mise en production : ETL incrémental sous contrôle d’erreurs, tuiles légères servies à l’edge, cache et proxy opérationnels 24/7, automatisation des releases et des visuels de communication.

ETLSIGEdgeDevOps

Entrepôt analytics & BI produit

Action : chez Whympr, bâtir un pipeline Python/dbt croisant analytics produit, paiements et base applicative, avec modélisation des événements et des parcours d’abonnement. Résultat : plus de 180 événements structurés, indicateurs de funnel cohérents et documentation des marts exploitables par le métier. Mise en production : exécutions quotidiennes conteneurisées, publication des marts vers Superset et tableaux de bord réellement utilisés pour piloter l’activité.

dbtSQLSupersetDocker

Mesures longitudinales & transfert décisionnel

Action : réconcilier des campagnes multi-protocoles, verrouiller le contrôle qualité des dosages et estimer des modèles à effets mixtes pour isoler le signal utile. Résultat : 766 mesures consolidées, 640 observations retenues après filtres, effets quantifiés (jusqu’à 22 % de variance expliquée), articles et communications scientifiques associés. Mise en production : protocoles reproductibles (CV < 7 % en reproductibilité), indicateurs et seuils repris par des réseaux de conseil pour l’aide à la décision terrain.

LMMQAPublicationTransfert

L'école du diagnostic

Mon parcours initial de Docteur Vétérinaire n'est pas une parenthèse, c'est le socle de ma rigueur technique. La médecine d'urgence m'a appris la gestion du risque, la standardisation absolue des protocoles et la prise de décision architecturale sous haute pression.

Aujourd'hui, j'applique cette même démarche diagnostique à l'ingénierie : identifier la cause racine d'un goulot d'étranglement, assurer la reproductibilité d'un pipeline ML ou garantir la haute disponibilité d'un service. C'est cette exigence clinique appliquée à la donnée qui fait la différence entre un système qui fonctionne et un système sur lequel on peut parier.

Piliers d'expertise

Architectures & scalabilité

Conception de pipelines data à grande échelle (10B+ points), architectures distribuées (HPC, openMP/Dask), formats optimisés (Parquet, Zarr) et orchestration distribuée.

Excellence opérationnelle (MLOps)

Industrialisation de l'IA : du fine-tuning de LLMs au monitoring en production. CI/CD, containerisation, Infrastructure-as-Code (Terraform) et observabilité totale.

Diagnostic & modélisation

Modélisation statistique et mécaniste avancée, sélection de modèles par log-vraisemblance profilée, et transformation de signaux hétérogènes en outils d'aide à la décision.

Vision produit full-stack

Capacité à opérer l'ensemble de la chaîne de valeur : Cloud, Backend haute performance (FastAPI, Polars), Frontend réactif (Astro, React) et interfaces UX scientifiques.

Tracer l'essentiel.

Donnons à vos enjeux data une architecture claire, traçable et tenable en production.