⚡️ Ingénieur avec 4 ans d’expérience dans les secteurs de l’énergie électrique et de l’hydrogène, j’ai enrichi mon profil technique grâce à une thèse CIFRE en data science, optimisation et analyse de séries temporelles
🌱 Passionné par l’analyse de données, je suis reconnu pour mon sérieux, ma rigueur, mon adaptabilité et mon organisation. Prêt à relever des défis dans le domaine de la data science, je suis ouvert à des opportunités dans l’énergie, la santé , ainsi qu’à tout domaine ayant un impact sur la transition énergétique.
Voici une sélection de projets illustrant mes compétences en data science et machine learning réalisés durant ma formation ainsi que sur mon temps personnel.
🌞 Prédiction de l’Ensoleillement
Développement d’un modèle de prédiction de l’ensoleillement pour anticiper la génération d’énergie solaire et intégrer les prévisions dans un modèle de gestion d’énergie (unit commitment).
Série temporelle / Régression / Feature Engineering / Optimisation des hyper-paramètres / Clustering / Réduction de dimension
📊 Données
Les données proviennent de la base open data NSRDB et couvrent trois ans, avec un pas de temps de 15 minutes. Elles incluent l’irradiance, la température, le vent et l’angle zénithal du soleil.
🚀 Démarche
Analyse exploratoire : Visualisation de l’ensoleillement annuel
Sélection des features : Test statistique basé sur l’information mutuelle
Feature Engineering
Ajout de nouvelles variables basées sur des travaux académiques, dont
L’angle solaire pour ajouter une feature indépendante de la météo, ne dépendant que de l’heure et de la position géographique
Clustering : Classification des conditions de couverture nuageuse
Réduction de dimension : PCA pour diminuer la taille des données météorologiques
Sélection du modèle de régression : Lasso, ElasticNet, Random Forest, XGBoost, LightGBM, MLP Neural Network
Amélioration du modèle sélectionné :
Prévention de l’overfitting via la courbe d’apprentissage
Optimisation des hyper paramétres
Explicabilité des prédictions : Utilisation de SHAP pour analyser la contribution des variables
⭐ Résultats
Modèle retenu : Random Forest, optimisé pour la vitesse d’inférence
Prédictions : Projection de l’ensoleillement pour les 24 heures suivantes, avec des intervalles de 30 minutes
Performance : Erreur RMSE moyenne de 94,3 W/m²
Exemple de prédictions de l’ensoleillement sur un horizon de 13 jours :
Distribution des erreurs de prédiction : Distribution montrant une calibration équilibrée du modèle
🔍 Prédiction des Exacerbations des Patients atteints de FPI
Ce projet a pour objectif de prédire les exacerbations des patients atteints de fibrose pulmonaire idiopathique (FPI), une maladie chronique des poumons. À partir d’une base de données médicale, l’objectif est d’anticiper la probabilité d’aggravation de l’état de santé d’un patient.
Les données proviennent de fichiers Excel remplis manuellement par des soignants, nécessitant un travail approfondi de nettoyage et de structuration.
🚀 Démarche
Nettoyage des données : Correction des fautes de frappe via des expressions régulières (REGEX)
Analyse statistique : Identification des variables significatives via des tests statistiques (Student, Chi²)
Identification des fuites de données (data leakage): par exemple, une variable médicament peut indiquer un risque élevé d’exacerbation estimé par le médecin
Comparaison de modèles : Évaluation de plusieurs modèles (Gradient Boosting, Arbre de décision, Naive Bayes, KNN, SVM, Ridge Classifier)
Sélection du modèle : Le modèle XGBoost s’est avéré le plus performant
Compromis biais variance: régularisation pour prévenir l’overfitting
Sélection des variables par élimination récursive. Seul 6 variables sont nécessaires sur les 60 du jeu de données
Courbe de calibration des probabilités : Le modèle est correctement calibré pour prédire une probabilité correct de chaque classe
⭐ Résultats
Le modèle XGBoost, optimisé grâce à Optuna, a permis d’obtenir des prédictions robustes, offrant un outil utile pour l’aide à la décision clinique dans la gestion des patients atteints de FPI.
Importances des variables: le score de dyspnée NYHA (essoufflement) et l’indice de comorbidité de Charlson impactent fortement sur la prédiction d’exacerbation
Seuil de précision: le seuil de prédiction à 50% est correct pour éviter trop de faux positifs et négatifs
Courbe receiver operating characteristic: le modèle prédit correctement les vrais positifs et négatifs
Développement logiciel
🔋 Logiciel de dimensionnement de microréseau électrique
Création de zéro d’un logiciel de simulation et de dimensionnement de microréseau avec génération renouvelable et stockage hydrogène. Conçu durant mon stage de fin d’études en 2020, ce logiciel est toujours en utilisation.
Série temporelle / Dashboard Qt5 / Visualisation de données / Architecture logicielle UML / Modèle-vue-contrôleur
Données
Séries temporelles de mesures d’ensoleillement, de vent et de consommation électrique
Démarche
Étude des besoins utilisateurs
État de l’art académique
Conception (UML) et implémentation (Python)
Création de l’interface graphique en Qt 5
Travail collaboratif avec gestion de version Git
Déploiement de l’application en .exe avec PyInstaller
Rédaction de la documentation et formation des utilisateurs
Résultats
Application graphique pour simuler et dimensionner les moyens de génération et de stockage d’un microréseau, utilisée par le service offre.