Forte de plus de 2 ans d'expérience, je conçois des solutions data et IA de l'ingestion jusqu'à l'industrialisation. Spécialisée en Agentic RAG, Elasticsearch et Azure OpenAI.
Forte de plus de 2 ans d'expérience, j'ai évolué d'un profil développeur full-stack vers un rôle de Data & AI Engineer — couvrant l'ensemble du cycle de la donnée, de l'ingestion jusqu'à l'industrialisation de solutions d'IA générative.
Je maîtrise Python, Elasticsearch et Azure OpenAI, et j'ai conçu un chatbot intelligent basé sur une architecture multi-agents Agentic RAG. Mon approche se caractérise par une forte rigueur analytique, garantissant la qualité, l'anonymisation et la sécurité des données (conformité RGPD).
Je vise aujourd'hui un poste d'AI/Data Engineer pour contribuer à la mise en production de solutions data et IA à fort impact opérationnel, tout en faisant le pont entre les enjeux techniques et métiers.
Face aux limites des outils de recherche existants sur de grands corpus de données, j'ai conçu et développé de bout en bout un chatbot conversationnel basé sur une architecture Agentic RAG. La solution s'appuie sur 4 agents spécialisés et autonomes : sélection dynamique des sources par recherche vectorielle, génération automatique de requêtes Elasticsearch adaptées à chaque index, exécution parallèle des recherches, puis synthèse des résultats avec citation des sources. Le corpus traité couvre 138 254 commentaires SAV sur 5 ans (7 074 tickets). Interface développée avec Streamlit.
Stack : Python · CrewAI · Azure OpenAI · Elasticsearch KNN · SentenceTransformers · Streamlit
Pour permettre au chatbot d'effectuer des recherches sémantiques avancées, j'ai mis en place un pipeline de vectorisation complet. Après benchmark comparatif entre plusieurs modèles (ELSER, E5 Multilingual Small et E5 Multilingual Base) sur des données en français, j'ai retenu le modèle E5 Multilingual Base (768 dimensions), plus précis sur les formulations métier complexes. Les embeddings sont générés automatiquement à l'ingestion via un ingest pipeline avec inférence, et stockés sous forme de vecteurs dense dans Elasticsearch pour la recherche KNN.
Avant toute exploitation des données textuelles, j'ai mis en place une chaîne complète de nettoyage et d'anonymisation automatique via des pipelines Elasticsearch. Suppression des balises HTML résiduelles, masquage automatique des numéros de téléphone par expressions régulières, et censure des adresses email et IP via des patterns Grok prédéfinis. Chaque donnée sensible est remplacée par une mention normalisée, garantissant la conformité RGPD tout en préservant la valeur analytique des commentaires.
J'ai repris et refondé entièrement un processus d'ingestion défaillant (solution sans visibilité ni détection d'anomalies) en développant un système complet en Python. Le nouveau pipeline intègre un monitoring automatisé, une journalisation détaillée des traitements, une tâche planifiée quotidienne et une architecture robuste Python → Filebeat → Kafka → Elasticsearch. Résultat : zéro intervention manuelle post-déploiement, génération automatique de rapports quotidiens, hebdomadaires et mensuels, et traçabilité complète des imports.
Les données SAV étaient manipulées de façon décentralisée par plusieurs équipes, sans vision partagée ni reporting commun. J'ai centralisé 373 258 tickets dans Elasticsearch et conçu des tableaux de bord interactifs multi-périmètres : taux d'activation et d'escalade, volumes de tickets, catégorisation des pannes, efficacité de traitement. J'ai utilisé des formules et calculs KQL avancés pour produire des métriques précises. Les rapports sont distribués automatiquement sur une base hebdomadaire, mensuelle et annuelle.
Les rapports de performance Roaming étaient produits manuellement, ce qui rendait toute analyse en temps réel impossible. J'ai automatisé l'ensemble du processus en configurant un pipeline Logstash pour parser les données brutes et créer de nouveaux champs calculés. Les dashboards produits visualisent les taux de succès par zone géographique, technologie (2G–5G) et mois, avec une carte du monde interactive intégrant un zoom par continent et par pays pour une granularité maximale.
Tout au long des projets, j'ai assuré le recueil des besoins auprès des équipes SAV, téléphonie mobile et clients internes, en traduisant les exigences opérationnelles en KPIs mesurables. J'ai adopté une approche itérative de prototypage avec retours utilisateurs, et accompagné les nouveaux clients internes dans la prise en main des tableaux de bord déployés.
Coordination du déploiement automatisé d'OpenSSH sur l'ensemble des machines d'une plateforme interne. Coopération avec une équipe transverse, pilotage de l'opération de bout en bout et communication multi-parties prenantes.
Conception et développement d'une application web full-stack en production (Cloud Avenue, infrastructure cloud interne) générant automatiquement des graphiques de pilotage applicatif pour le groupe Orange (12 227 composants). Fonctionnalités d'exports Web SVG/PNG et architectures de slidePacks PowerPoint. Stack : Flask, Bootstrap, Pycairo, GitLab.
Application de la méthodologie agile complète (JIRA, GitLab), de la rédaction des User Stories jusqu'à la livraison finale. Cumul des rôles de Développeuse, Product Owner et SCRUM Master au cours du cycle.
Université de Rennes-ISTIC
2023 – 2025Université de Rennes-ISTIC
2022 – 2023Valley View University (Ghana)
2016 – 2020Une opportunité professionnelle, un projet à discuter, ou simplement l'envie d'échanger sur la Data & l'IA ? N'hésitez pas à me contacter.