Présentation de mes réalisations et projets
Adrien GAUCHÉ
⚡️ Ingénieur avec 4 ans d’expérience dans les secteurs de l’énergie électrique et de l’hydrogène, j’ai enrichi mon profil technique grâce à une thèse CIFRE en data science, optimisation et analyse de séries temporelles
🌱 Passionné par l’analyse de données, je suis reconnu pour mon sérieux, ma rigueur, mon adaptabilité et mon organisation. Prêt à relever des défis dans le domaine de la data science, je suis ouvert à des opportunités dans l’énergie, la santé , ainsi qu’à tout domaine ayant un impact sur la transition énergétique.
Data Scientist & Ingénieur Optimisation, PowiDian Energy SAS | 2021 - 2024 |
Officier de Réserve, Marine Nationale | 2020 - 2021 |
Ingénieur Études et Développement, HENSOLDT NEXEYA France | 2020 |
Docteur en Génie Électrique (CIFRE), Centrale Nantes | 2021 - 2024 |
Master Control in Smartgrids and Distributed Generation, UPV / EHU, Espagne | 2019 - 2020 |
Ingénieur Diplômé, ESTIA | 2017 - 2020 |
Voici une sélection de projets illustrant mes compétences en data science et machine learning réalisés durant ma formation ainsi que sur mon temps personnel.
Développement d’un modèle de prédiction de l’ensoleillement pour anticiper la génération d’énergie solaire et intégrer les prévisions dans un modèle de gestion d’énergie (unit commitment).
Série temporelle / Régression / Feature Engineering / Optimisation des hyper-paramètres / Clustering / Réduction de dimension
Les données proviennent de la base open data NSRDB et couvrent trois ans, avec un pas de temps de 15 minutes. Elles incluent l’irradiance, la température, le vent et l’angle zénithal du soleil.
Analyse exploratoire : Visualisation de l’ensoleillement annuel
Sélection des features : Test statistique basé sur l’information mutuelle
Réduction de dimension : PCA pour diminuer la taille des données météorologiques
Sélection du modèle de régression : Lasso, ElasticNet, Random Forest, XGBoost, LightGBM, MLP Neural Network
Performance : Erreur RMSE moyenne de 94,3 W/m²
Exemple de prédictions de l’ensoleillement sur un horizon de 13 jours :
Distribution des erreurs de prédiction : Distribution montrant une calibration équilibrée du modèle
Ce projet a pour objectif de prédire les exacerbations des patients atteints de fibrose pulmonaire idiopathique (FPI), une maladie chronique des poumons. À partir d’une base de données médicale, l’objectif est d’anticiper la probabilité d’aggravation de l’état de santé d’un patient.
Classification / Nettoyage de données / REGEX / gestion des valeurs manquantes / Tests statistiques (Student, Chi²) / Hyper-paramètres / Gradient Boosting
Les données proviennent de fichiers Excel remplis manuellement par des soignants, nécessitant un travail approfondi de nettoyage et de structuration.
Le modèle XGBoost, optimisé grâce à Optuna, a permis d’obtenir des prédictions robustes, offrant un outil utile pour l’aide à la décision clinique dans la gestion des patients atteints de FPI.
La figure illustre la contribution des variables du modèle pour ajuster la valeur de base (moyenne calculée sur l’ensemble du jeu de données d’entraînement) vers la valeur prédite pour un exemple donné. Les variables qui augmentent la prédiction sont représentées en rouge tandis que celles qui la diminuent sont en bleu [Article Nature].
Une précision élevée est obtenue avec peu de faux positifs dans les résultats prédits, et un rappel (recall) élevé est obtenu en ayant peu de faux négatifs [Article précision recall].
La courbe ROC, est un graphique qui illustre les performances d’un système de classification binaire lorsque son seuil de discrimination varie. Elle est créée en traçant la fraction des vrais positifs parmi les positifs (TPR = taux de vrais positifs) par rapport à la fraction des faux positifs parmi les négatifs (FPR = taux de faux positifs), à différents seuils [Article ROC].
Création de zéro d’un logiciel de simulation et de dimensionnement de microréseau avec génération renouvelable et stockage hydrogène. Conçu durant mon stage de fin d’études en 2020, ce logiciel est toujours en utilisation.
Série temporelle / Dashboard Qt5 / Visualisation de données / Architecture logicielle UML / Modèle-vue-contrôleur
Séries temporelles de mesures d’ensoleillement, de vent et de consommation électrique