Diagnostiquer l'invisible. Décider l'essentiel.
L'analyse de systèmes complexes sous pression constitue le fil rouge d'un parcours de 14 ans, débuté dans l'urgence des blocs opératoires vétérinaires avant de se prolonger dans l'architecture de systèmes numériques massifs. Cette trajectoire n'est pas une succession de métiers, mais l'évolution naturelle d'une méthode : la capacité à lire ce que les autres ne voient pas, à transformer une masse de signaux faibles en un diagnostic précis, et à assumer la décision qui débloque une situation critique.
En médecine, trancher vite et bien est une nécessité quand la marge d'erreur est inexistante. En ingénierie data, cette exigence de rigueur est identique. Chaque choix d'architecture, chaque arbitrage sur la stack technologique, engage directement la fiabilité et la pérennité du produit final. L'expertise ne réside pas dans la maîtrise d'un outil, mais dans l'intelligence de son déploiement au service d'un résultat tangible.
La philosophie du diagnostic
Le diagnostic de l'invisible est une discipline à part entière. En clinique, il s'agissait d'identifier la cause racine quand les symptômes étaient trompeurs. Cette approche a trouvé son prolongement académique à l'INRA, lors de la transformation de 766 mesures issues de 10 expérimentations distinctes en un indicateur opérationnel pour l'élevage. L'analyse a permis de démontrer que 22% des variations du lactose laitier s'expliquaient par un mécanisme physiologique jusqu'alors non quantifié, changeant durablement les pratiques de terrain des conseillers en élevage.
Cette clarté analytique est le socle d'une communication d'influence. Au CNRS, l'enjeu consistait à traiter 10 milliards de points bruts pour en extraire une vision intelligible. La conception de pipelines de données robustes n'est rien sans la capacité à restituer cette complexité via des dashboards interactifs et des rapports stratégiques, comme ceux présentés à Météo-France. C'est cette même volonté de clarté qui a guidé le développement de Naivo, où des flux de données hétérogènes ont été traduits en un outil décisionnel distingué par data.gouv.fr pour sa pertinence dans la gestion des risques.
Enfin, le leadership s'incarne dans la décision à fort enjeu. De la priorisation de cas critiques en urgence vétérinaire à la coordination internationale sous l'égide de la logique One Health, l'objectif reste le même : agir avec justesse. Dans l'univers technologique, cela se traduit par des arbitrages structurants, comme le choix d'une distribution Dask sur cluster HPC au détriment d'approches séquentielles traditionnelles — un pari technique qui a permis d'obtenir un gain de performance de 80% sur les pipelines de recherche climatologique du CNRS.
L'impact par les faits
Ingénierie climatique • CNRS
La gestion de 60 ans de précipitations extrêmes a nécessité la conception d'une architecture ETL complète dès la phase d'ingestion. Le choix stratégique de distribuer le calcul via Dask et d'orchestrer les flux avec Airflow a été déterminant pour diviser par cinq les temps de traitement. Le résultat final ne se limite pas à un pipeline performant, mais inclut la création d'écosystèmes complets : dashboards d'analyse sous Streamlit et publication de datasets de référence sur HuggingFace.
Innovation publique • Naivo
Naivo est né d'une volonté de centraliser en temps réel les variables critiques de la sécurité en montagne : risque avalanche, bulletins météo, flux webcams et cartographie topographique de précision. La complexité résidait dans l'agrégation de sources hétérogènes pour produire une interface d'une simplicité absolue. Ce travail de conception et de développement a été reconnu pour son utilité publique par une mise en avant sur data.gouv.fr et une couverture par la presse spécialisée.
Santé augmentée • BioResistanceAI
Face à une masse de données de 94 000 features génomiques et métaboliques, la réussite du projet BioResistanceAI a reposé sur un arbitrage précis des méthodes de modélisation. En privilégiant les algorithmes de gradient boosting (XGBoost, LightGBM), il a été possible d'atteindre un recall de 0.93 sur des antibiotiques critiques comme la tobramycine. L'analyse fine des résultats a révélé que l'essentiel du signal prédictif résidait dans l'expression génique, permettant d'orienter les futures recherches vers des mécanismes biologiques plus ciblés que les simples SNPs.
Expertise scientifique • INRA
Le pilotage du contrôle qualité sur 766 mesures complexes a exigé une rigueur statistique sans faille. Le développement d'un modèle mécaniste bi-compartimental a permis de quantifier, pour la première fois, les transferts de lactose entre la glande mammaire et le sang (estimés à 130 g/24h). Cette contribution scientifique majeure a fait l'objet d'une publication au Bulletin de l'Académie Vétérinaire de France et d'une présentation lors du symposium international ADSA-INRAE, ancrant le diagnostic médical dans la data science de pointe.
ADN & philosophie technique
La technologie n'est jamais une fin en soi, mais un levier de scalabilité et de fiabilité. Dans le domaine de la data, le recours à Python, Polars ou Dask n'est pas une question de préférence, mais de réponse à des enjeux de volumétrie. Traiter des milliards de points sur des clusters HPC Linux demande une compréhension fine des formats de stockage (Zarr, Parquet, NetCDF) et des mécanismes de parallélisation. Chaque pipeline est conçu pour être reproductible, versionné et versionnable via une approche stricte de l'Infrastructure-as-Code.
En machine learning, l'IA est abordée comme un outil de diagnostic augmenté. Que ce soit pour du fine-tuning de LLMs, pour de la classification multi-aspects ou le déploiement de modèles prédictifs, l'accent est mis sur l'interprétabilité des résultats et la robustesse de la validation croisée. Il ne s'agit pas de produire un modèle, mais de livrer un système capable de fonctionner en conditions réelles, intégré dans une chaîne MLOps automatisée.
Enfin, la vision full-stack garantit que l'excellence technique se traduit par une expérience utilisateur fluide. De l'architecture Cloud à l'interface réactive construite avec Astro, React et MapLibre, la boucle est bouclée : la donnée est collectée, traitée, modélisée, et enfin restituée de manière actionnable. Cette maîtrise de bout en bout assure une cohérence totale et une réactivité optimale face aux évolutions du métier.
Champs d'intervention
L'expertise se décline dans des environnements où la précision est un prérequis absolu :
Santé & BioTech
Modélisation de données génomiques, études cliniques et prédiction de résistances bactériennes (BioResistanceAI).
Climat & Environnement
Traitement de séries temporelles massives (60 ans), analyse d'extrêmes et indicateurs agri-tech (CNRS / INRA).
Sécurité publique & Décision
Conception d'outils d'aide à la décision en temps réel pour la gestion des risques complexes (Naivo).
HPC & Calcul scientifique
Orchestration de calculs distribués sur cluster Linux et pipelines géospatiaux haute résolution (SunCast).
Tracer l'essentiel.
Prêt à transformer vos enjeux métiers les plus denses en architectures technologiques transparentes et performantes ?