NICOLAS DECOOPMAN

Data & Systems Engineer

Grenoble, France

LinkedIn https://www.linkedin.com/in/nicolas-decoopman/
GitHub https://github.com/NCSdecoopman
Portfolio https://ncsdecoopman.github.io/

J'analyse et structure des systèmes complexes pour concevoir des solutions robustes et opérationnelles. Vétérinaire de formation, j'en ai gardé la rigueur scientifique et le jugement en contexte à risque. Mon expertise combine data engineering, systèmes distribués et mise en production : de l'ingestion de milliards de points à la livraison d'outils décisionnels.

Expériences professionnelles

Data & Analytics Engineer — Whympr

Remote · févr. 2026 – avr. 2026 · 3 mois

Mise en place de l'infrastructure analytique centralisée. L'objectif principal de ce projet a été d'unifier les données comportementales, transactionnelles et produits dans un pipeline quotidien industrialisé pour offrir aux équipes une vue complète de l'activité utilisateur.

Ingénierie & architecture data

  • Développement d'un Data Warehouse basé sur DuckDB avec une approche ELT en 4 couches (Staging, Clean, Build, Marts) gérée de bout en bout via dbt.
  • Mise en place et maintenance de pipelines d'extraction Python ciblant 4 sources de données principales : Google Analytics 4 (BigQuery), RevenueCat (via Amazon S3 et API) et la base de production PostgreSQL.
  • Implémentation d'une logique de résolution d'identité (identity resolution) visant à réconcilier les parcours liés sessions non connectées avec les identifiants utilisateurs applicatifs.

Modélisation & analytics

  • Création de modèles d'analyse couvrant plus de 180 événements GA4, catégorisés par grands usages (Navigation, Social, Monétisation, etc.), pour faciliter le suivi des KPIs produits.
  • Modélisation du cycle de vie des abonnements (essai, conversion, renouvellement, annulation) en gérant algorithmiquement les périodes continues (via une logique d'Islands & Gaps).
  • Construction de tables analytiques larges (OBT) servant de socle pérenne pour la segmentation des utilisateurs et l'étude des cohortes.

BI & adoption métier

  • Déploiement d'une instance Apache Superset via Docker pour permettre aux équipes Produit et Marketing d'explorer les données en autonomie, avec accompagnement sur les rapports clés (rétention par cohorte, funnels de conversion Premium).
  • Mise en place du déploiement sur VM avec stack conteneurisée, automatisation des démarrages de services et runbook d'exploitation pour sécuriser les mises en production et la maintenance quotidienne.

Stack : Python · dbt · DuckDB · PostgreSQL · SQL · Docker · Apache Superset

Full-Stack Data Engineer — naivo

Remote · sept. 2025 – févr. 2026 · 6 mois

Conception, développement et opération d'un produit digital complet. De plusieurs sources disparates à une plateforme unique d'aide à la décision en montagne. naivo.fr résout la fragmentation des données de sécurité nivo-météo en centralisant les flux officiels et collaboratifs sur une interface cartographique haute performance.

Produit & chaîne de valeur

  • Maîtrise de l'ensemble de la chaîne de valeur : de l'ingestion de données à l'expérience utilisateur finale.

Data Engineering & ETL

  • Data Engineering & ETL : ingestion asynchrone (Python) de flux JSON/XML (Météo-France, BERA, Skitour, Camptocamp) avec pipelines de nettoyage et de spatialisation.

Infrastructure SIG & performance

  • Infrastructure SIG Serverless : conception d'un pipeline (GDAL, Tippecanoe, PMTiles) traitant des modèles numériques de terrain à 25m de résolution.
  • Haute disponibilité & frugalité : distribution des tuiles vectorielles et rasters via Cloudflare Workers et R2 (format PMTiles), garantissant < 100ms de latence sur mobile.

Diffusion & reconnaissance

  • Automatisation des réseaux sociaux : pipelines CI/CD (GitHub Actions) pilotant la capture automatisée de l'interface (multi-calques, multi-formats) et sa publication sur Instagram et Facebook, illustrant quotidiennement la richesse fonctionnelle et la diversité des cas d'usage de la plateforme.
  • Reconnaissance institutionnelle : projet sélectionné et distingué par data.gouv.fr parmi les réutilisations d'Open Data remarquables de l'année, validant la qualité de l'approche technique et la pertinence du produit.
  • Couverture médiatique : relayé par la presse régionale (Le Dauphiné Libéré) et spécialisée (La Belle Route) pour son impact concret sur la sécurité publique en montagne.

Stack : Python · SQLite · GDAL · Cloudflare Workers · Astro/React · MapLibre GL JS · GitHub Actions

Data Engineer & Scientist — CNRS / IGE / Météo-France

Grenoble, Auvergne-Rhône-Alpes · mars 2025 – sept. 2025 · 7 mois

Industrialisation complète de l'analyse des précipitations extrêmes horaires en France (1959–2022) : du traitement massif de données climatiques à la production de livrables scientifiques automatisés.

Big Data Engineering

  • Big Data Engineering : conception initiale d'un pipeline ETL distribué (Dask, Airflow, cluster HPC Linux) traitant 10 milliards de données (100 Go) sur 88 000 points modélisés et 14 000 points observés couvrant 560 640 heures. Formats optimisés : NetCDF - Zarr - Parquet. Gain de performance de 80% vs exécution séquentielle.

Modélisation statistique avancée

  • Modélisation statistique avancée : moteur de sélection automatique parmi 7 modèles GEV spatio-temporels (stationnaires et non stationnaires) via log-vraisemblance profilée, appliqué point par point pour la caractérisation des extrêmes saisonniers et mensuels.

DevOps/MLOps & reproductibilité

  • DevOps/MLOps & reproductibilité : chaîne CI/CD complète (GitHub Actions, Docker) avec publication automatisée du dataset versionné sur HuggingFace Datasets, déploiement de l'application Streamlit sur HuggingFace Spaces, dashboards interactifs (Plotly, Leafmap) et rapports scientifiques dynamiques (Quarto). Configuration as-code (YAML), monitoring et reproductibilité totale garantie.

Stack : Python · Dask · Xarray · Polars · NumPy · SciPy · Numba · Zarr · Parquet · Airflow · Docker · Linux HPC · Streamlit

Docteur vétérinaire — Clinique vétérinaire des Dômes

Le Broc, Auvergne-Rhône-Alpes · sept. 2021 – août 2024 · 3 ans

Exercice mixte en médecine canine et rurale, alliant soins cliniques, suivi de troupeaux et approche scientifique des données de santé animale.

Responsabilités & réalisations

  • Prise en charge des urgences et priorisation clinique (canine et rurale), avec protocoles standardisés et traçabilité complète.
  • Coordination et suivi de projets techniques et scientifiques sur la santé, la nutrition et la reproduction des animaux de rente.
  • Méthodologie rigoureuse : reproductibilité des diagnostics, respect des protocoles, gestion des données patient.
  • Communication pédagogique et vulgarisation scientifique auprès des propriétaires, techniciens et partenaires agricoles.
  • Collaboration opérationnelle avec les autorités sanitaires, les laboratoires, les acteurs de terrain et les institutions internationales (logique One Health).

Docteur vétérinaire — Clinique Ani-Médic

La Tardière, Pays de la Loire · sept. 2019 – août 2021 · 2 ans

Suivi sanitaire et technique des élevages bovins, ovins et caprins avec approche intégrée animal-environnement-production.

Responsabilités & réalisations

  • Analyse et valorisation des données terrain (reproduction, nutrition, pathologies, bien-être).
  • Plans sanitaires et préventifs fondés sur des indicateurs mesurables (suivi de troupeau, fertilité, qualité du lait).
  • Coordination interdisciplinaire entre vétérinaires, techniciens et éleveurs pour des problématiques complexes.
  • Formation et accompagnement des éleveurs, rapports techniques synthétiques pour la prise de décision.

Data Scientist & Analyst — INRA

Le Rheu, Pays de la Loire · mars 2019 – juillet 2019 · 5 mois

Conception d'indicateurs opérationnels de lactosémie destinés aux organismes de conseil en élevage, à partir de la modélisation statistique et mécaniste des transferts de lactose entre la mamelle et le sang.

Rigueur analytique

  • Rigueur analytique : pilotage du contrôle qualité et de la validation analytique sur 766 mesures issues de 10 expérimentations (279 profils de vaches). Résultat : CV ≤ 3% (répétabilité) et ≤ 7% (reproductibilité), garantissant la fiabilité des indicateurs pour une intégration en production.

Modélisation mécaniste avancée

  • Modélisation mécaniste avancée : développement d'un modèle bicompartimentaux mamelle-sang quantifiant les transferts physiologiques complexes (2,1 g/12h de traite ; 130 g/24h ; clairance rénale 0,24 L·min−1). Mise en évidence qu'en cas d'inflammation, jusqu'à 22% des variations de lactosémie s'expliquent par les profils animaux.

Impact décisionnel

  • Traduction de données expérimentales en indicateurs robustes directement intégrables dans les outils d'aide à la décision des conseillers en élevage.
  • Publication à l'Académie Vétérinaire de France et communication ADSA-INRAE.

Stack : R · lme4 · lmerTest · emmeans · ggplot2

Assistant vétérinaire — Clinique Ani-Médic

Moncoutant, Nouvelle-Aquitaine · janv. 2019 · 1 mois

Campagne de prophylaxie bovine.

Mission terrain

  • Collecte et saisie de données sanitaires sur le terrain, standardisation des enregistrements, contrôle qualité, suivi des indicateurs de dépistage bovin.
  • Collaboration avec les équipes vétérinaires et les services de l'État.

Projets

FeelingsAnalysis

nov. 2025 – nov. 2025

Système d'intelligence artificielle multi-aspect pour l'automatisation de l'analyse des feedbacks clients (prix, cuisine, service, ambiance) sur des avis de restaurants en français. Généralisable à l'e-commerce, aux enquêtes de satisfaction et aux RH.

  • Benchmark stratégique : comparaison rigoureuse entre approche LLM zero-shot (Ollama) et fine-tuning d'un modèle transformeur CamemBERT-Large (110M paramètres) avec 4 têtes de classification indépendantes. Plus de 24 versions d'expériences itérées pour atteindre la configuration optimale.
  • Optimisation GPU : pipeline d'entraînement reproductible (PyTorch Lightning) intégrant Mixed Precision (FP16, accélération ×2–3), Gradient Checkpointing (−40 % mémoire GPU), Gradient Accumulation (batch effectif 128) et Discriminative Learning Rates. Résultat : 86 % de macro-accuracy (87,8 % sur le service, 87,2 % sur la cuisine).
  • Prêt pour la production : architecture modulaire, configuration centralisée et logging automatique des métriques, conçue pour un déploiement industriel via API REST.

Stack : Python · PyTorch Lightning · Hugging Face Transformers · Ollama · scikit-learn

SunCast

nov. 2025 – nov. 2025

Moteur de simulation haute performance (HPC) des heures de lever et coucher du soleil à haute résolution, intégrant les ombres portées par la topographie réelle (MNT Copernicus).

  • High-Performance Computing : calculateur C++17 massivement parallélisé (OpenMP, 96 cœurs par tâche) traitant ~2 millions de pixels × 365 jours par département. Communication binaire C++ → Python en streaming (zéro fichier intermédiaire). Déploiement sur cluster HPC via Slurm Job Arrays.
  • Cas d'usage : données exploitables pour l'optimisation du placement de panneaux photovoltaïques en montagne, études glaciologiques, agriculture de précision et aménagement urbain.

Stack : C++17 · OpenMP · Python · NumPy · GDAL · Slurm HPC · Parquet

Nivéo

oct. 2025 – nov. 2025

Architecture d'une infrastructure de données 100 % autonome et serverless pour le monitoring en temps réel de l'enneigement en France, à partir des APIs publiques Météo-France (DPClim).

  • Automatisation totale & DevSecOps : pipeline d'ingestion et de visualisation s'exécutant quotidiennement sans intervention humaine. Sécurité renforcée : authentification AWS via OIDC (zéro clé longue durée), secrets chiffrés, permissions IAM minimales.
  • Infrastructure as Code (IaC) : provisionnement Terraform pour AWS (Lambda, DynamoDB avec TTL 11 jours). Stack à coût opérationnel nul (Free Tier permanent) avec nettoyage automatique et exports GitHub Actions.
  • Front performant : site statique léger (Astro, MapLibre GL JS, Chart.js) déployé automatiquement sur GitHub Pages à chaque mise à jour de données.

Stack : Python · AWS (DynamoDB, Lambda) · Terraform · GitHub Actions · Astro · MapLibre GL JS · Chart.js

MissingDataLab

oct. 2024 – févr. 2025

Étude méthodologique comparative des stratégies d'imputation de données manquantes (MCAR, MAR, MNAR) pour garantir la robustesse des modèles prédictifs en contexte réel.

  • Benchmarking rigoureux : évaluation systématique de 7 méthodes (moyenne, médiane, KNN, SoftImputer, ACP, ICE, MissForest) sur des scénarios simulés, démontrant la supériorité de MissForest et ICE pour maintenir l'intégrité statistique des analyses.

Stack : Python · scikit-learn · SciPy · pandas · NumPy · R (simstudy)

BioResistanceAI

janv. 2025 – janv. 2025

Intelligence artificielle prédictive pour la lutte contre l'antibiorésistance : prédiction de la résistance bactérienne à 5 antibiotiques à partir de données multi-omiques (414 bactéries, 94 000+ caractéristiques : 72 236 SNPs, 16 005 gènes, 6 026 expressions géniques).

  • Excellence prédictive : recall de 0,96 (Tobramycine via XGBoost) et performances stables sur l'ensemble des antibiotiques via l'optimisation de modèles d'ensemble (XGBoost, LightGBM) avec recherche systématique d'hyperparamètres (GridSearchCV, validation croisée 5 plis).
  • Explainable AI & feature importance : identification des sources d'information les plus prédictives par antibiotique (transcriptomique dominante pour les meilleurs modèles), pour orienter les stratégies de diagnostic rapide en contexte clinique.

Stack : Python · scikit-learn · XGBoost · LightGBM · PyTorch · pandas · NumPy

SnowTrack

déc. 2024 – févr. 2025

Orchestration de pipelines de validation automatisés pour l'évaluation des modèles de prévision climatique (S2M vs observations terrain Météo-France).

  • Automatisation ETL & analyse spatio-temporelle : flux automatisés pour l'ingestion, le traitement et l'agrégation des données, générant des statistiques détaillées (moyennes, maxima, distributions, tendances) et identifiant les zones et périodes présentant des divergences significatives entre modèle et observations.

Stack : Python · pandas · NumPy

DevOps — Portfolio {NCS}decoopman

2024 - A présent

Automatisation de la publication du site personnel, du CV et des rapports analytiques (Quarto) dans une chaîne reproductible.

CI/CD & publication

  • Automatisation complète de la publication du site et des rapports analytiques.
  • Chaque commit déclenche la régénération du site (Astro) et des rapports (Quarto), la génération et la mise en ligne via GitHub Actions.
  • CI/CD garantissant cohérence, traçabilité et gain de temps éditorial.

Stack : Astro · TypeScript · Quarto · GitHub Actions

Distinctions et prix

Lauréat de l'Académie Vétérinaire de France

Académie Vétérinaire de France (AVF) · nov. 2020

Prix de thèse

École Nationale Vétérinaire de Nantes (Oniris) · sep. 2019

Compétences techniques

Domaine Détail
Data Engineering dbt, ETL/ELT, Airflow, API REST, orchestration, qualité des données, modélisation analytique
Data Science & ML scikit-learn, XGBoost, LightGBM, PyTorch, statsmodels, SciPy, GEV, LMM, Hugging Face, Ollama
Cloud & Infrastructure AWS (DynamoDB, Lambda), Terraform, Cloudflare Workers, OIDC, IAM
Conteneurisation & CI/CD Docker & Compose, GitHub Actions (lint, test, build, scan sécurité, déploiement), Trivy, Grype
Langages Python, R, C++, SQL, Shell/Bash
Bases de données PostgreSQL, DuckDB, SQLite (relationnel) ; DynamoDB (NoSQL) ; S3 (objet)
Formats de données Parquet, Zarr, NetCDF, GeoJSON, CSV, JSON
HPC Dask, OpenMP, Slurm, ProcessPoolExecutor
SIG / Géospatial GDAL, Tippecanoe, PMTiles, MapLibre GL JS, Rasterio, GeoPandas
Visualisation & BI Apache Superset, Streamlit, Plotly, Matplotlib, Seaborn, Chart.js, Quarto
Systèmes Linux (HPC, serveurs VM), Windows
Anglais Professionnel — publication scientifique en anglais

Publications et communications

Formation

Université Grenoble Alpes

Master statistique et sciences des données (SSD) — Label Core AI par MIAI · sept. 2024 – août 2025

Niveau : Mention bien

  • Statistiques : tests statistiques, estimation statistique (moments, vraisemblance), régressions (linéaire, logistique), GLM, statistique computationnelle (bootstrap, permutation), statistiques en grande dimension (FWER, FDF, méthodes de pénalisation Lasso et Ridge), biostatistique (modèles mixtes, de survie)
  • Exploration de données : numériques (analyse descriptive), fouille de texte (DL, Word2Vec, NLP, BERT, Hugging Face Transformers), spatiales (krigeage)
  • Modélisation : bayésienne (Monte Carlo), échantillonnage, séries temporelles (ARIMA, GARCH)
  • Machine Learning : apprentissage supervisé (classification et régression : K-NN, SVM, Random Forests), non supervisé (clustering K-means et dimensionnalité ACP), apprentissage profond (réseaux de neurones CNN, RNN et transformers)
  • Programmation et optimisation (solveurs) :
    • R : boot, lme4, randomForest, xgboost, ggplot2, RMarkdown
    • Python : NumPy, pandas, SciPy, scikit-learn, TensorFlow, Keras, matplotlib, CVXPY

École Nationale Vétérinaire de Nantes

Diplôme d'État de docteur vétérinaire (DMV) · sept. 2014 – sept. 2019

Niveau : Mention très honorable avec félicitations du jury

Formation scientifique et clinique reconnue au niveau européen (ESEVT), couvrant l'ensemble des domaines de la médecine et chirurgie animale, de la santé publique vétérinaire, et de la production animale.

Développement de compétences transversales en diagnostic, rigueur méthodologique, gestion des données cliniques, communication technique et coordination interdisciplinaire.

Spécialisation finale en médecine de production et data science avec une approche de recherche expérimentale axée sur la modélisation et l'analyse de données biologiques.