Ingénieur Principal de Données (ETL/AWS/Python) - 100% Télétravail
À distance
À plein temps
Notre plateforme innovante, spécialisée dans la création et la publication de contenu sur les médias sociaux grâce aux technologies d'intelligence artificielle, recherche un Ingénieur Principal de Données. Dans ce rôle stratégique, vous dirigerez la conception et l'implémentation d'infrastructures de données robustes qui alimenteront nos solutions d'IA de pointe. Votre expertise permettra d'optimiser l'acquisition, le traitement et l'analyse des données issues des plateformes de médias sociaux.
Responsabilités Principales
- Concevoir, développer et maintenir des pipelines de données évolutifs et résilients pour collecter, traiter et stocker des données provenant de diverses sources de médias sociaux et interactions utilisateurs.
- Élaborer l'architecture complète d'un entrepôt de données moderne, en intégrant les meilleures pratiques pour optimiser les performances analytiques.
- Mettre en œuvre des processus rigoureux de vérification et de validation de la qualité des données afin de garantir l'intégrité, la précision et la fiabilité des données utilisées par nos modèles d'IA.
- Automatiser les processus d'Extraction, Transformation et Chargement (ETL) pour rationaliser l'ingestion et la transformation des données, réduisant ainsi les interventions manuelles et améliorant l'efficacité opérationnelle.
- Surveiller et optimiser en continu les pipelines de données pour améliorer la vitesse, la fiabilité et l'évolutivité, assurant un fonctionnement fluide de notre Assistant IA.
- Collaborer étroitement avec les Data Scientists, les Ingénieurs ML et les équipes pluridisciplinaires pour comprendre les besoins en données et fournir l'infrastructure nécessaire au développement et à l'entraînement des modèles.
- Appliquer des pratiques strictes de gouvernance des données, garantissant la confidentialité, la sécurité et la conformité aux réglementations pertinentes, notamment le RGPD, dans le contexte des données de médias sociaux.
- Établir des indicateurs de performance et mettre en place des solutions de surveillance pour identifier et résoudre les goulots d'étranglement ou anomalies dans le pipeline de données.
- Participer à la conception de tableaux de bord interactifs avec les analystes de données et les équipes métier pour faciliter la prise de décisions basées sur les données.
- Développer et maintenir des data marts et des tableaux de bord offrant des analyses en temps réel des données de médias sociaux.
- Rester à jour sur les technologies, outils et frameworks émergents dans le domaine des données, en évaluant leur potentiel pour améliorer les processus d'ingénierie de données.
Compétences Requises
- Diplôme de niveau Bac+5 en Informatique, Ingénierie des Données, ou domaine connexe.
- Expérience avérée (minimum 5 ans) en ingénierie des données, avec un accent particulier sur les processus ETL, le développement de pipelines de données et l'assurance qualité des données.
- Maîtrise approfondie des langages de programmation tels que Python 3.8+ et SQL, ainsi que des bibliothèques et frameworks d'ingénierie de données (Apache Airflow, dbt, Pandas, PySpark).
- Expérience significative avec les solutions de stockage et de traitement de données basées sur le cloud, notamment AWS (S3, Redshift, Glue, Lambda), Azure (Data Factory, Synapse Analytics) ou Google Cloud (BigQuery, Dataflow).
- Connaissance pratique des technologies de traitement de données à grande échelle telles qu'Apache Spark, Hadoop ou Kafka.
- Familiarité avec les principes de DataOps et les méthodologies Agiles (Scrum, Kanban).
- Excellentes capacités de résolution de problèmes et aptitude à travailler de manière collaborative au sein d'une équipe pluridisciplinaire.
- Compétences solides en communication pour exprimer des concepts techniques à des interlocuteurs non techniques.
- Connaissance des réglementations en matière de gouvernance des données et de protection de la vie privée (RGPD, CCPA).
Compétences Appréciées
- Certification en AWS, Azure ou Google Cloud Platform.
- Expérience avec les outils de virtualisation et de containerisation (Docker, Kubernetes).
- Connaissance des pratiques de CI/CD pour l'automatisation des déploiements de pipelines de données.
- Expérience dans l'utilisation de technologies NoSQL comme MongoDB, Cassandra ou Redis.
- Compréhension des principes de Machine Learning et d'Intelligence Artificielle.
- Expérience antérieure dans le secteur des médias sociaux ou de la publicité en ligne.
Pourquoi Nous Rejoindre
En rejoignant notre équipe, vous aurez l'opportunité de façonner l'architecture de données d'une plateforme IA innovante dans le domaine des médias sociaux. Vous travaillerez avec des technologies de pointe dans un environnement entièrement à distance, avec une équipe internationale de professionnels passionnés. Nous offrons une rémunération compétitive, des possibilités d'apprentissage continu et un équilibre optimal entre vie professionnelle et vie privée.