Dans le paysage commercial actuel axé sur les data, peu de postes sont plus cruciaux que celui de développeur ETL. Ces spécialistes du logiciel sont chargés de concevoir des systèmes complexes de stockage de data qui sont essentiels à la veille stratégique. En bref, ils ou elles transforment les Big Data en Big Wins.
ETL signifie « extract, transform, and load » (extraction, transformation et chargement), en référence à la procédure générale de transfert des data de sources multiples vers un entrepôt de data unique. Les data sont ensuite utilisées par les analystes pour prendre de meilleures décisions commerciales.
Inutile de dire que si vous avez besoin d’un développeur ETL, il est d’une importance vitale d’engager le ou la bon pour votre entreprise. Ce n’est un secret pour personne que les entreprises qui maîtrisent les data sont plus performantes que leurs concurrents.
Les recruteurs doivent être conscients que les outils ETL peuvent varier considérablement. C’est pourquoi vous devez, dans la mesure du possible, adapter le processus de recrutement aux besoins ETL spécifiques de votre entreprise.
Nous recommandons de recourir à une évaluation des compétences avant l’entretien, afin de présélectionner vos meilleurs candidats et de vous concentrer uniquement sur eux ou elles, et de ne pas perdre de temps à interviewer des candidats inadaptés.
Vous trouverez ci-dessous 25 des questions d’entretien ETL les plus importantes pour vous aider à recruter les meilleurs. Nous avons divisé les questions en trois groupes : niveau débutant, intermédiaire et avancé, pour différents niveaux d’expérience.
Vous trouverez également des exemples de réponses pour votre information, afin que vous puissiez évaluer les compétences des candidats en toute confiance, même si vous n’avez pas vous-même de compétences en développement ETL.
Si vous recrutez un développeur ETL débutant ayant jusqu’à deux ans d’expérience, pensez à utiliser ces questions d’entretien pour débutants.
Exemple de réponse :
Bien que l’abréviation implique un processus ordonné en trois étapes, l’ETL englobe en réalité plus d’étapes. ETL fait référence à l’extraction de data de différentes sources, à leur transformation et leur chargement dans un entrepôt de data, ainsi qu’à l’analyse éventuelle des data de l’entrepôt.
En bref, l’ETL comprend le transport des data dans les quatre domaines : extraction, transformation, chargement et analyse.
Exemple de réponse :
L’entreposage de data est un élément essentiel de la veille stratégique. En rassemblant différentes sources de data au sein d’une bibliothèque unique et unifiée, les analystes peuvent travailler plus efficacement, obtenir des informations plus approfondies et repérer des modèles dans différents ensembles de data.
En fin de compte, il aide les entreprises à être plus compétitives en améliorant leur processus de prise de décision.
Exemple de réponse :
L’ETL transforme les data avant leur chargement dans le système cible, tandis que l’ELT transforme les data au sein de l’entrepôt de data. Des deux, l’ELT est généralement considéré comme la meilleure solution pour les grandes quantités de data, proposant une manière plus flexible et agile de travailler avec les data.
Exemple de réponse :
Le partitionnement fait référence à la division de grands ensembles de data en zones plus petites et plus faciles à gérer, sur la base de caractéristiques communes. Son but est de rendre l’entrepôt de data plus facile à naviguer et d’améliorer les performances du traitement des requêtes.
Exemple de réponse :
Il existe un certain nombre d’outils logiciels ETL différents sur le marché, mais ils partagent tous le même objectif d’intégration des data. Voici quelques-uns des outils ETL les plus populaires :
Informatica PowerCenter
IBM InfoSphere DataStage
Oracle Data Integrator
Microsoft SQL Server Integration Services (SSIS)
Xplenty
Exemple de réponse :
Les faits sont des informations quantitatives sur une entreprise, telles que les chiffres de vente ou les soldes de comptes. Ils sont stockés dans une table de faits. Il existe trois types de faits :
Les faits non additionnables ne peuvent pas être additionnés dans une dimension quelconque de la table de faits, comme un pourcentage
Les faits semi-additionnables peuvent être additionnés dans certaines dimensions de la table de faits, mais pas dans toutes, comme un effectif
Les faits additionnables peuvent être additionnés dans toutes les dimensions de la table de faits, comme les ventes
Exemple de réponse :
Les tables de faits contiennent des mesures et des métriques sur une entreprise. Les tables de dimensions sont liées aux tables de faits par une clé étrangère et présentent les caractéristiques descriptives des faits qu’elles contiennent. Alors que les tables de faits sont granulaires, les tables de dimensions sont verbeuses et détaillées.
Exemple de réponse :
Des tests réguliers constituent une partie essentielle du processus ETL ; ils garantissent que les data arrivent dans l’entrepôt analytique de manière fluide et précise.
Les tests ETL peuvent être effectués de la manière suivante :
Examiner les sources primaires pour s’assurer qu’elles ont été extraites sans aucune perte de data
Vérifier que les data ont été transformées dans le type de data approprié pour l’entrepôt
Vérifier que l’entrepôt signale avec précision les cas de data non valides
Documenter tous les bogues qui se produisent pendant le processus ETL
Vous trouverez ensuite quelques questions destinées aux développeurs ETL intermédiaires. Utilisez-les pour recruter des postes de niveau intermédiaire pour lesquels les candidats ont déjà une certaine expérience pratique de l’ETL.
Exemple de réponse :
Une fois que les data ont été transportées avec succès dans l’entrepôt de data, les analystes utilisent généralement des applications de veille stratégique (BI) tierces, telles que Tableau, pour transformer les data brutes en graphiques et tableaux, sur la base desquels des décisions commerciales peuvent être prises.
Certains des derniers outils ETL sont équipés de leurs propres mécanismes d’analyse de data.
Exemple de réponse :
Il existe plusieurs méthodes de test ETL, chacune servant un objectif spécifique à différents points du processus ETL. Voici quelques-uns des types de tests ETL les plus courants :
Validation de la production : les data dans le système cible sont comparées aux sources à des fins de validité
Test de comptage de la source à la cible : le nombre d’enregistrements chargés dans l’entrepôt de data est contrôlé pour vérifier la cohérence avec le nombre d’enregistrements attendus
Test de performance : le processus de chargement est testé pour s’assurer qu’il se déroule dans les délais prévus
Test de transformation des data : les data du système cible sont vérifiées pour s’assurer qu’elles ont été correctement transformées en fonction des besoins de l’entreprise
Exemple de réponse :
Les instantanés sont des copies en lecture seule des data de la table maîtresse. Avant qu’une modification soit apportée à l’entrepôt de data, un instantané est pris et stocké localement pour référence. Cela permet de préserver les enregistrements tels qu’ils étaient avant la modification.
Chaque instantané comporte trois éléments :
L’heure à laquelle il a été pris
Une clé pour identifier l’instantané
Les data relatives à la clé
Exemple de réponse :
Le profilage des data est le processus d’examen des data sources afin d’identifier leur structure, leur qualité et leurs interrelations.
Il s’agit d’un précurseur important de l’étape d’analyse, car il garantit que les data sources appropriées sont chargées dans l’entrepôt de data et qu’elles sont transformées conformément aux exigences de l’entreprise.
Exemple de réponse :
Les tests ETL peuvent révéler une grande variété de problèmes. En voici quelques-uns :
La perte de data entre le système source et le système cible
Le manque de cohérence entre les ensembles de data
Un traitement des requêtes trop long
Plantages du système dus à l’échelle de l’entrepôt de data
Bogues esthétiques liés à la police, la couleur ou l’alignement
Exemple de réponse :
La plupart des entrepôts de data comprennent trois zones distinctes. Les voici :
La zone de staging, où les data sont extraites de diverses sources et traitées
La zone d’intégration des data, où les data de la zone de staging sont transformées (parfois appelée le serveur OLAP)
La zone d’accès, où les data transformées sont récupérées par les utilisateurs pour être analysées
Exemple de réponse :
La zone de staging est la zone d’atterrissage des data extraites des sources et se situe entre la source et la cible dans le processus ETL.
Les data y sont nettoyées et modifiées avant d’être transférées vers l’entrepôt de data. Il s’agit d’une alternative plus efficace à la transformation des data dans le système cible lui-même.
Exemple de réponse :
Le chargement initial fait référence au processus de chargement de toutes les data des sources primaires dans le système cible pour la première fois. Une fois cette opération terminée, tous les chargements ultérieurs dans le système seront des chargements incrémentiels, au cours desquels seuls les enregistrements nouveaux ou modifiés sont introduits.
Vous trouverez ci-dessous neuf questions destinées aux développeurs ETL avancés. Vous pouvez les utiliser pour évaluer les compétences et les connaissances des développeurs ETL seniors qui ont beaucoup d’expérience.
Exemple de réponse :
Il est important d’identifier les défis potentiels dès le début du processus ETL afin d’éviter les goulots d’étranglement plus loin dans le pipeline. Voici quelques-uns des problèmes et défis les plus courants des tests ETL :
Perte, corruption ou duplication des data pendant le transport
Sous-performance causée par de grands volumes de data historiques
Exigences commerciales irréalisables
Disponibilité limitée des data sources
Outils ETL obsolètes
Exemple de réponse :
Les tests ETL sont un processus exigeant devant être réalisé dans l’ordre suivant :
Définir les exigences commerciales : assurer la liaison avec le client pour comprendre ses besoins en matière de reporting et définir la portée du projet
Valider les sources de data : effectuer une vérification du nombre de data et s’assurer que les clés de contrôle sont en place
Concevoir la logique ETL : concevoir la feuille de mappage, le script SQL et les codes de transformation
Extraire les data sources : identifier les éventuels bogues lors de la phase d’extraction
Transformer les data : s’assurer que les data sont transformées de manière cohérente
Charger les data : effectuer un contrôle du nombre d’enregistrements et vérifier l’exactitude des data chargées
Réviser le processus : vérifier la validité, la présentation et la fonctionnalité d’exportation du rapport de synthèse
Soumettre le rapport de test : partager les résultats du test avec les parties prenantes concernées
Exemple de réponse :
Un bon outil ETL rend le processus d’intégration des data plus efficace et plus convivial. Voici quelques fonctionnalités ETL particulièrement utiles :
La compatibilité avec le cloud, permettant une plus grande flexibilité et une meilleure manipulation des ensembles de data volumineux
Les intégrations tierces pour se connecter aux plateformes ERP et aux outils de BI
La génération automatique de code pour réduire les risques d’erreurs humaines et accélérer le développement
Une interface intuitive pour améliorer la navigation des utilisateurs
Des outils de débogage sophistiqués, qui réduisent les perturbations des flux de data
Exemple de réponse :
L’ETL est une phase initiale importante du processus d’exploration de data. Après l’identification des sources de data et la définition des besoins de l’entreprise, l’ETL est effectué pour rassembler toutes les data historiques dans un système unique et cohérent.
Dès lors, les data sont analysées et modélisées à l’aide d’outils de BI. Les scientifiques des data sont alors en mesure d’évaluer les data pour tirer des conclusions concernant les décisions commerciales.
Exemple de réponse :
Les deux principaux types de partitionnement dans l’ETL sont les suivants :
Le partitionnement par hachage : les lignes sont attribuées à l’aide d’une clé de hachage, ce qui signifie que les partitions dépendent de l’algorithme de hachage spécifié
Le partitionnement round-robin : les lignes sont attribuées de manière round-robin, ce qui signifie que chaque partition contient approximativement le même nombre de lignes
Exemple de réponse :
Le test de régression est utilisé après avoir développé des réparations fonctionnelles de l’entrepôt de data. Son but est de vérifier si lesdites réparations ont altéré d’autres domaines du processus ETL.
Les tests de régression doivent toujours être effectués après des modifications du système pour voir si elles ont introduit de nouveaux défauts.
Exemple de réponse :
La purge des data est le processus qui consiste à supprimer définitivement les data obsolètes de l’entrepôt de data. Par exemple, les data peuvent être purgées lorsqu’elles ont dix ans. Cette opération est effectuée pour libérer de l’espace sur le serveur et améliorer les performances.
La purge des data est généralement accompagnée d’un archivage, dans le cadre duquel les data sont déplacées vers un dispositif de stockage distinct pour une conservation à long terme, généralement à des fins juridiques.
Exemple de réponse :
Il existe plusieurs différences clés entre les recherches connectées et non connectées :
Les recherches connectées renvoient plusieurs colonnes de la même ligne, alors que les recherches non connectées renvoient une colonne de chaque ligne
Les recherches connectées reçoivent des valeurs directement du pipeline de mappage, alors que les recherches non connectées reçoivent des valeurs d’une transformation distincte
Les recherches connectées utilisent un cache dynamique ou statique, alors que les recherches non connectées utilisent uniquement un cache statique
Exemple de réponse :
La transformation de recherche est utilisée pour récupérer des valeurs d’une source de data en fonction de conditions de recherche spécifiques. Il existe quelques scénarios où cela peut être nécessaire, par exemple pour :
Mettre à jour une table de dimensions
Vérifier si des enregistrements existent déjà dans une table
Trouver une valeur spécifique dans une table
Les entretiens ne sont qu’une partie de ce qui devrait être un processus rigoureux de sélection des candidats en plusieurs étapes. Il est important de s’appuyer sur d’autres outils et techniques de recrutement lors de l’embauche de votre prochain développeur ETL afin d’obtenir une vision plus complète des compétences de chaque candidat.
Les entretiens fonctionnent mieux à la fin du processus de sélection ; le recours à des évaluations des compétences et à des tâches préalables vous permet d’écarter les candidats sous-qualifiés à un stade plus précoce, ce qui vous permet de gagner du temps en ne faisant passer que des entretiens à vos meilleurs candidats.
Voici les grandes lignes d’un processus de recrutement ETL efficace :
Publication du poste : veillez à indiquer les outils ETL utilisés par votre entreprise dans l’offre d’emploi et à énumérer les responsabilités du poste
Sélection des CV : passez les CV au crible, en sélectionnant les candidats qui pourraient avoir les bonnes compétences ETL requises pour le poste
Skills assessment: Invite shortlisted candidates to complete an online skills assessment of up to five different tests—you could assess their ETL skills, cognitive abilities, or even their personality traits or culture add potential
Appel de sélection : discutez de manière informelle avec les candidats pour déterminer si vos attentes et vos objectifs correspondent
Tâche spécifique au poste : présentez aux candidats une tâche ETL similaire à ce qu’ils ou elles feraient dans le cadre du poste, comme la création d’un processus automatisé de nettoyage des data
Entretien : inspirez-vous des questions d’entretien ci-dessus, mais n’oubliez pas d’évaluer les compétences non techniques du ou de la candidat
Vérification des références : effectuez des vérifications relatives aux antécédents et aux références du ou de la candidat
Décision finale et offre d’emploi : prenez votre décision finale sur la base des compétences, de la personnalité et du potentiel de plus-value culturelle avant de faire une offre d’emploi
La nature hautement spécialisée de l’ETL rend encore plus importante l’inclusion des évaluations des compétences pratiques de programmation et des tâches spécifiques au poste dans le cadre du processus de sélection.
Les échantillons de travail sont l’un des indicateurs les plus efficaces des performances probables d’un ou d’une candidat, et sont utilisés par bon nombre des plus grandes entreprises du monde, dont Google. Les entretiens structurés, dans le cadre desquels vous posez à l’ensemble des candidats les mêmes questions dans le même ordre, vous aideront à évaluer avec précision leurs performances et à limiter les biais.
Si vous avez déjà une bonne idée de l’expertise ETL du ou de la candidat au moment de l’entretien, posez quelques questions ETL spécifiques et concentrez-vous sur ses compétences non techniques et sa personnalité. Toute décision de recrutement doit tenir compte de l’attitude tout autant que des aptitudes.
En utilisant des questions d’entretien et des évaluations spécifiques au poste, vous pouvez créer un processus de sélection à toute épreuve capable de dénicher le ou la meilleur développeur ETL pour votre organisation.
N’oubliez pas d’adapter le processus de recrutement aux besoins ETL de votre entreprise et aux exigences spécifiques du poste. Cela vous aidera à trouver un candidat possédant les bonnes compétences et, en fin de compte, à maximiser vos chances de réaliser une embauche à long terme mutuellement bénéfique.
Essayez TestGorilla gratuitement dès aujourd’hui et commencez à prendre de meilleures décisions de recrutement.
Créez des tests de recrutement en quelques minutes pour évaluer les candidats, gagner du temps et recruter les meilleurs talents.
Pas de spam. Désabonnez-vous à tout moment.
Nos tests de sélection identifient les meilleur·e·s candidat·e·s et rendent vos décisions d’embauche plus rapides, plus simples et impartiales.