Data Scientist & ingénieur génie électrique

Adrien GAUCHÉ

⚡️ Ingénieur avec 4 ans d’expérience dans les secteurs de l’énergie électrique et de l’hydrogène, j’ai enrichi mon profil technique grâce à une thèse CIFRE en data science, optimisation et analyse de séries temporelles

🌱 Passionné par l’analyse de données, je suis reconnu pour mon sérieux, ma rigueur, mon adaptabilité et mon organisation. Prêt à relever des défis dans le domaine de la data science, je suis ouvert à des opportunités dans l’énergie, la santé , ainsi qu’à tout domaine ayant un impact sur la transition énergétique.

📞 Références

💼 Profil LinkedIn : Découvrez mon parcours professionnel
📧 Email : adrien.no.spam.gauche@centraliens-nantes.org (retirer “no.spam.” pour me contacter)
📑 CV : Disponible sur demande
💻 GitHub : Explorez mes projets en data science et optimisation
🆔 ORCID : Mon identifiant chercheur ORCID
📚 HAL : Mes travaux académiques en libre accés
🔬 Google Scholar : Mes publications scientifiques

🛠️ Compétences et Outils

Méthodes : séries temporelles / time series (prédiction/ classification/ anomalies)
Langages de programmation : Python, SQL, C/C++, Julia
Analyse de données : Pandas, NumPy, SciPy
Visualisation de données : Seaborn, Plotly, Streamlit
Apprentissage automatique : Scikit-Learn, PyTorch
Explicabilité des modèles : SHAP
Optimisation & Recherche Opérationnelle :
- Optimisation linéaire à variables mixtes (MILP) avec Gurobi, HiGHS
- Optimisation par heuristiques algorithme génétique, Particle Swarm Optimization
Gestion des bases de données : SQL, SQLite
Développement web : FastAPI, nginx
Systèmes d’exploitation : Linux, Bash, Cron Job
Outils DevOps : Git, Docker, CI/CD

🏢 Expériences professionnelles

Data Scientist & Ingénieur Optimisation, PowiDian Energy SAS 2021 - 2024
- Modélisation et optimisation des systèmes d’énergie renouvelable (solaire, hydrogène)
Officier de Réserve, Marine Nationale 2020 - 2021
Ingénieur Études et Développement, HENSOLDT NEXEYA France 2020
- Développement de logiciels pour la simulation et le dimensionnement de micro-réseaux

🎓 Formation

Docteur en Génie Électrique (CIFRE), Centrale Nantes 2021 - 2024
Master Control in Smartgrids and Distributed Generation, UPV / EHU, Espagne 2019 - 2020
Ingénieur Diplômé, ESTIA 2017 - 2020

📊 Portfolio Data Science

Voici une sélection de projets illustrant mes compétences en data science et machine learning réalisés durant ma formation ainsi que sur mon temps personnel.

🌞 Prédiction de l’Ensoleillement

Développement d’un modèle de prédiction de l’ensoleillement pour anticiper la génération d’énergie solaire et intégrer les prévisions dans un modèle de gestion d’énergie (unit commitment).

Voir le projet sur Kaggle

Série temporelle / Régression / Feature Engineering / Optimisation des hyper-paramètres / Clustering / Réduction de dimension

📊 Données

Les données proviennent de la base open data NSRDB et couvrent trois ans, avec un pas de temps de 15 minutes. Elles incluent l’irradiance, la température, le vent et l’angle zénithal du soleil.

🚀 Démarche

Analyse exploratoire : Visualisation de l’ensoleillement annuel
Sélection des features : Test statistique basé sur l’information mutuelle
Feature Engineering
Ajout de nouvelles variables basées sur des travaux académiques, dont
- L’angle solaire pour ajouter une feature indépendante de la météo, ne dépendant que de l’heure et de la position géographique
- Clustering : Classification des conditions de couverture nuageuse
Réduction de dimension : PCA pour diminuer la taille des données météorologiques
Sélection du modèle de régression : Lasso, ElasticNet, Random Forest, XGBoost, LightGBM, MLP Neural Network
Amélioration du modèle sélectionné :
- Prévention de l’overfitting via la courbe d’apprentissage
- Optimisation des hyper paramétres
Explicabilité des prédictions : Utilisation de SHAP pour analyser la contribution des variables

⭐ Résultats

Modèle retenu : Random Forest, optimisé pour la vitesse d’inférence
Prédictions : Projection de l’ensoleillement pour les 24 heures suivantes, avec des intervalles de 30 minutes
Performance : Erreur RMSE moyenne de 94,3 W/m²
Exemple de prédictions de l’ensoleillement sur un horizon de 13 jours :
Distribution des erreurs de prédiction : Distribution montrant une calibration équilibrée du modèle

🔍 Prédiction des Exacerbations des Patients atteints de FPI

Ce projet a pour objectif de prédire les exacerbations des patients atteints de fibrose pulmonaire idiopathique (FPI), une maladie chronique des poumons. À partir d’une base de données médicale, l’objectif est d’anticiper la probabilité d’aggravation de l’état de santé d’un patient.

Classification / Nettoyage de données / REGEX / gestion des valeurs manquantes / Tests statistiques (Student, Chi²) / Hyper-paramètres / Gradient Boosting

📊 Données

Les données proviennent de fichiers Excel remplis manuellement par des soignants, nécessitant un travail approfondi de nettoyage et de structuration.

🚀 Démarche

Nettoyage des données : Correction des fautes de frappe via des expressions régulières (REGEX)
Analyse statistique : Identification des variables significatives via des tests statistiques (Student, Chi²)

P-value des variables qualitatives

Identification des fuites de données (data leakage): par exemple, une variable médicament peut indiquer un risque élevé d’exacerbation estimé par le médecin
Comparaison de modèles : Évaluation de plusieurs modèles (Gradient Boosting, Arbre de décision, Naive Bayes, KNN, SVM, Ridge Classifier)
Sélection du modèle : Le modèle XGBoost s’est avéré le plus performant
Compromis biais variance: régularisation pour prévenir l’overfitting
Sélection des variables par élimination récursive. Seul 6 variables sont nécessaires sur les 60 variables initiales.

Sélection des variables par élimination récursive

Courbe de calibration des probabilités : Le modèle est correctement calibré pour prédire une probabilité correct de chaque classe

Calibration curve

⭐ Résultats

Le modèle XGBoost, optimisé grâce à Optuna, a permis d’obtenir des prédictions robustes, offrant un outil utile pour l’aide à la décision clinique dans la gestion des patients atteints de FPI.

Importances des variables: Le score de dyspnée NYHA (essoufflement) et l’indice de comorbidité de Charlson jouent un rôle déterminant dans la prédiction des exacerbations. Par conséquent, ces deux indices déjà utilisés sont pertinents pour anticiper les exacerbations. Ce modèle affine légèrement la prédiction.

La figure illustre la contribution des variables du modèle pour ajuster la valeur de base (moyenne calculée sur l’ensemble du jeu de données d’entraînement) vers la valeur prédite pour un exemple donné. Les variables qui augmentent la prédiction sont représentées en rouge tandis que celles qui la diminuent sont en bleu [Article Nature].

Importance des features

Seuil de précision: le seuil de prédiction à 50% est correct pour éviter trop de faux positifs et négatifs

Une précision élevée est obtenue avec peu de faux positifs dans les résultats prédits, et un rappel (recall) élevé est obtenu en ayant peu de faux négatifs [Article précision recall].

Seuil de précision

Courbe receiver operating characteristic: le modèle prédit correctement les vrais positifs et négatifs

La courbe ROC, est un graphique qui illustre les performances d’un système de classification binaire lorsque son seuil de discrimination varie. Elle est créée en traçant la fraction des vrais positifs parmi les positifs (TPR = taux de vrais positifs) par rapport à la fraction des faux positifs parmi les négatifs (FPR = taux de faux positifs), à différents seuils [Article ROC].

Courbe receiver operating characteristic

Application en ligne

Développement logiciel

🔋 Logiciel de dimensionnement de microréseau électrique

Création de zéro d’un logiciel de simulation et de dimensionnement de microréseau avec génération renouvelable et stockage hydrogène. Conçu durant mon stage de fin d’études en 2020, ce logiciel est toujours en utilisation.

Série temporelle / Dashboard Qt5 / Visualisation de données / Architecture logicielle UML / Modèle-vue-contrôleur

Données

Séries temporelles de mesures d’ensoleillement, de vent et de consommation électrique

Démarche

Étude des besoins utilisateurs
État de l’art académique
Conception (UML) et implémentation (Python)
Création de l’interface graphique en Qt 5
Travail collaboratif avec gestion de version Git
Déploiement de l’application en .exe avec PyInstaller
Rédaction de la documentation et formation des utilisateurs

Résultats

Application graphique pour simuler et dimensionner les moyens de génération et de stockage d’un microréseau, utilisée par le service offre.

Capture d'écran du logiciel réalisé