Plusieurs secteurs ont commencé à utiliser l'apprentissage automatique (ML) et l'intelligence artificielle (IA) au cours des dernières années. Les soins de santé, la vente au détail, la finance, la banque et la fabrication en sont quelques exemples.
Pour les responsables du recrutement, cela signifie qu'ils sont en concurrence avec d'autres secteurs pour trouver des experts compétents en ML et en IA, ce qui rend la tâche encore plus difficile. Et trouver les bons talents (data scientists, ingénieurs en apprentissage automatique, etc.) n'a jamais été aussi important.
C'est pourquoi il est si crucial de poser les bonnes questions d'entretien aux ingénieurs en apprentissage automatique, afin de n'embaucher que les meilleurs candidats ingénieurs en apprentissage automatique. Pensez à combiner cela avec d'autres méthodes pour évaluer avec précision l'expertise et les connaissances des candidats, comme les tests de compétences.
Facilitez-vous la vie en choisissant une plateforme de tests de compétences recommandée comme TestGorilla et utilisez nos tests Data Science et Machine Learning pour évaluer les candidats.
Les candidats qui obtiennent de bons résultats à ces tests comprennent parfaitement les fondamentaux de la science des données et de l'apprentissage automatique. Ils auront également les connaissances nécessaires en matière de réseaux neuronaux, de programmation, de statistiques et d'apprentissage profond.
Dans cet article, nous avons également compilé une liste de 55 questions d'entretien pour ingénieur en apprentissage automatique que vous pouvez utiliser lors de vos entretiens ou inclure comme questions personnalisées dans les évaluations.
Nous avons également fourni des exemples de réponses et expliqué les raisons pour lesquelles ces réponses sont importantes.
L'apprentissage profond est une forme particulière d'apprentissage automatique basée sur les réseaux neuronaux. Il implique l'utilisation de principes neuroscientifiques et de la rétropropagation pour modéliser correctement de grands ensembles de données, qu'elles soient semi-structurées ou non étiquetées.
En résumé, l'apprentissage profond est le mécanisme par lequel un algorithme apprend sans supervision. Il apprend les représentations des données par le biais de réseaux neuronaux.
Ici, vous testez la compréhension du candidat sur les nuances de la performance du modèle. En général, les questions relatives à l'apprentissage automatique se concentrent sur les détails. Cependant, les modèles les plus précis peuvent être moins performants lorsqu'il s'agit de faire des prédictions.
Le candidat doit comprendre que la précision d'un modèle n'est qu'un aspect de la performance du modèle.
Votre candidat doit démontrer qu'il comprend les trois principaux moyens d'éviter le surajustement d'un modèle.
Pour éviter le surajustement d'un modèle, un scientifique des données peut
Simplifier le modèle, ou supprimer une partie du bruit en réduisant la variance.
Utiliser des tactiques de validation croisée, telles que les k-folds
Utiliser des tactiques de régularisation, par exemple LASSO, pour pénaliser les paramètres susceptibles de permettre un surajustement.
Une table de hachage est une structure de données qui crée un tableau associatif. Vous associez une clé à certaines valeurs à l'aide d'une fonction de hachage. Les tables de hachage sont généralement utilisées pour l'indexation des bases de données.
Avec cette question, vous testez les connaissances de votre candidat sur votre modèle d'entreprise et sur le secteur en général.
Vous vérifiez également s'il comprend comment les données correspondent aux résultats de votre entreprise et comment il appliquera ces connaissances dans son travail. Comprend-il les problèmes que votre entreprise souhaite résoudre grâce aux données ?
Les meilleurs candidats se tiennent au courant des derniers rapports scientifiques sur l'apprentissage automatique. Recherchez des revues bien référencées, telles que Nature.
L'année 2016 a été importante pour l'histoire de l'apprentissage profond et de l'apprentissage automatique. AlphaGo, un programme informatique qui joue au Go, a battu le meilleur joueur humain de Go, Lee Sedol.
Votre candidat doit montrer qu'il comprend comment AlphaGo est parvenu à ce résultat. Il a utilisé la recherche arborescente de Monte-Carlo avec des réseaux neuronaux profonds. Ces réseaux sont formés par l'apprentissage supervisé de jeux humains et d'auto-jeux.
Ici, vous testez l'intérêt de votre candidat pour l'apprentissage automatique à un niveau élevé et pas seulement sa capacité à le mettre en œuvre dans des tâches spécifiques.
Plusieurs percées importantes ont été réalisées dans le domaine de l'informatique quantique. Vos meilleurs candidats montreront un intérêt pour ce domaine et seront capables de parler de l'idée que certains algorithmes peuvent donner de meilleurs résultats sur des ordinateurs quantiques.
Les candidats qui ont publié des articles de recherche peuvent vraiment se démarquer ici - cela démontre une expérience scientifique et académique précieuse.
Avec cette question, vous testez les connaissances de votre candidat en matière de JSON. Il s'agit d'un format de fichier populaire qui s'intègre à JavaScript.
Votre candidat doit montrer qu'il comprend les six types de données JSON de base : objets, chaînes, tableaux, booléens, nombres et valeurs nulles.
Une liste chaînée est un groupe ordonné d'éléments dont les éléments sont reliés par des pointeurs. Une liste chaînée a plus de chances de se développer organiquement.
Un tableau doit être défini pour croître. Un tableau suppose également que tous les éléments sont identiques, ce qui n'est pas le cas d'une liste chaînée. Enfin, le brassage d'un tableau est complexe et coûteux. Dans le cas d'une liste chaînée, il suffit de changer les pointeurs.
Votre candidat doit faire preuve d'une compréhension approfondie des objectifs courants de la régression logistique, tels que la prédiction, la classification, etc. Assurez-vous qu'il est capable de parler de cas d'utilisation et d'exemples.
Assurez-vous que votre candidat comprend que la régression donne des résultats continus alors que la classification crée une valeur distincte pour des catégories strictes.
Vous choisirez la classification plutôt que la régression si vous voulez que les résultats montrent que les points de données appartiennent à des catégories spécifiques.
Votre candidat doit montrer qu'il comprend l'élagage.
L'élagage d'un arbre de décision consiste à supprimer les branches dont le pouvoir prédictif est faible. Cela permet de simplifier le modèle et d'augmenter la précision de la prédiction.
L'élagage de la complexité des coûts et l'élagage de l'erreur réduite en sont des exemples, ce dernier en étant la version la plus simple. Dans ce cas, vous élaguez en remplaçant chaque nœud, tant que cela ne diminue pas la précision prédictive.
Cette question permet de tester la capacité de votre candidat à expliquer des détails techniques en termes simples. C'est important pour une bonne communication entre le personnel technique et non technique.
Recherchez des candidats capables d'expliquer différents algorithmes d'une manière simple et facile à comprendre.
La différence entre l'apprentissage automatique supervisé et non supervisé réside dans la manière dont les données étiquetées sont traitées. L'apprentissage non supervisé n'a pas besoin de données étiquetées, alors que l'apprentissage supervisé en a besoin.
Vos candidats doivent indiquer qu'une transformée de Fourier est une méthode qui décompose les fonctions en fonctions de fréquence spatiales ou temporelles.
Il s'agit d'une méthode typique pour extraire des caractéristiques de signaux audio et d'autres séries temporelles.
Vous recherchez des candidats capables d'expliquer qu'ils utiliseraient des techniques de validation croisée pour segmenter l'ensemble de données ou le diviser en ensembles de test et d'entraînement. Ils appliqueraient ensuite une série de mesures de performance.
Ce qui est crucial ici, c'est que vos candidats vous montrent qu'ils comprennent que la mesure précise des modèles dépend du choix des bonnes mesures pour la bonne citation.
Cette question vous permet de voir si votre candidat peut écrire du code tout en pensant au parallélisme.
Elle montre s'il est capable de gérer la concurrence dans les implémentations de programmation qui traitent des données volumineuses (big data).
Bien qu'il s'agisse d'une question de génie logiciel, il est utile de vérifier si vos candidats connaissent les structures de données et les algorithmes. Il existe plusieurs façons de vérifier la présence de palindromes.
C'est l'occasion pour vos candidats de montrer qu'ils ont fait des recherches sur votre entreprise et votre secteur d'activité.
Un bon candidat montrera qu'il comprend ce qui génère des revenus pour votre entreprise et les types de clients de votre entreprise. Il expliquera également comment il pourrait mettre en œuvre des modèles d'apprentissage automatique pour résoudre les problèmes de votre entreprise.
Il s'agit là d'une autre question permettant de vérifier si votre candidat est réellement intéressé par l'apprentissage automatique.
Quelqu'un qui aime vraiment l'apprentissage automatique est susceptible d'avoir créé ses propres projets parallèles et, par conséquent, de savoir où se procurer d'excellents ensembles de données. Ce type de question vous aide à faire le tri entre les ingénieurs passionnés et les ingénieurs qui travaillent uniquement pour un salaire.
Cette question vous aide à trouver des candidats qui ont entrepris des projets d'apprentissage automatique pendant leur temps libre, et pas seulement dans le cadre de leur travail en entreprise. Elle permet de vérifier si vos candidats sont capables de répartir efficacement le temps consacré à l'apprentissage automatique et s'ils savent comment financer des projets.
Les candidats compétents connaissent le "Prix Netflix", un concours dans le cadre duquel Netflix a offert un prix d'un million de dollars à toute personne capable de créer un meilleur algorithme de filtrage collaboratif.
BellKor (les gagnants) a utilisé plusieurs méthodes différentes pour améliorer l'algorithme de 10 %. Les bons candidats se souviendront non seulement du concours, mais aussi de la solution créée par BellKor, ce qui prouvera qu'ils sont passionnés par l'apprentissage automatique depuis longtemps.
Les ingénieurs en apprentissage automatique doivent maîtriser de nombreux formats de données clés, y compris SQL. Les réponses à cette question montreront si votre candidat peut manipuler des bases de données SQL.
Il doit expliquer qu'il peut faire correspondre et joindre des tables en utilisant des clés étrangères et la clé primaire d'une table correspondante. Il doit également vous expliquer comment il mettrait en place des tables SQL.
Spark est l'outil big data le plus demandé. Toutefois, si votre entreprise utilise un autre outil, n'hésitez pas à le mentionner à la place de Spark.
Cette question vous aidera à identifier les candidats qui sont familiers avec ces outils et qui seront capables de se lancer dans la course. Les réponses vous montreront également qui a passé du temps à faire des recherches et à se familiariser avec votre entreprise avant l'entretien.
Dans ce cas, vous testez la capacité de votre candidat à accroître son pouvoir prédictif. L’apprentissage ensembliste combine différents algorithmes d'apprentissage pour améliorer les performances prédictives.
Cette approche crée un modèle robuste qui résiste généralement aux petites modifications des données susceptibles de fausser la précision de la prédiction. Les candidats expérimentés pourront citer des exemples de méthodes d'ensemble, telles que l’ensemble de méthodes avec le bagging, le boosting, etc.
Votre candidat doit comprendre qu'un modèle discriminatif apprend simplement la différence entre les catégories de données, tandis qu'un modèle génératif apprend les catégories de données.
Il doit également préciser que pour les tâches de classification, un modèle discriminatif est généralement plus performant qu'un modèle génératif.
La régularisation L1 est plus clairsemée car les variables sont assignées soit à 0 soit à 1 (binaire). La régularisation L2 répartit les erreurs entre les termes.
Laprécision est le nombre de positifs exacts déclarés par le modèle par rapport au nombre de positifs déclarés. On parle également de valeur prédictive positive.
Lerappel est le nombre de positifs déclarés par rapport au nombre de positifs trouvés dans les données. Il s'agit également du taux de vrais positifs.
L'erreur de variance se produit lorsque l'algorithme d'apprentissage est trop complexe. Cela pourrait créer un algorithme trop sensible, conduisant votre modèle à suradapter les données.
L'erreur de biais se produit lorsque l'algorithme d'apprentissage repose sur des hypothèses trop simples. Cela crée le problème inverse de l'erreur de variance. L'erreur de biais peut entraîner une généralisation des connaissances de l'ensemble d'apprentissage à l'ensemble de test et une sous-adaptation du modèle aux données. Cela conduirait à un modèle qui ne peut pas avoir une grande précision prédictive.
Votre candidat doit montrer qu'il comprend que ce n'est jamais une bonne idée d'avoir un modèle à forte variance ou à fort biais. Il faut trouver un compromis entre les deux.
Cette question permet de vérifier si votre candidat a travaillé avec des sources de données externes. Si c'est le cas, il est probable qu'il ait des API préférées. Les meilleurs candidats vous diront ce qu'ils pensent de certaines API et vous donneront des détails sur les pipelines et les expériences qu'ils ont menées.
Cette question permet de vérifier si votre candidat est capable de gérer des formats de données désordonnés.
Le XML prend beaucoup plus de place que les CSV. Le XML utilise des balises pour présenter les paires clé-valeur sous la forme d'une arborescence.
Les CSV utilisent des séparateurs pour créer des catégories de données et les organiser en colonnes. En général, un ingénieur voudra traiter les données XML pour en faire un CSV utilisable.
Ici, vous testez la compréhension des candidats quant aux dommages que peuvent causer des ensembles de données déséquilibrés.
Vos candidats doivent montrer comment ils équilibreraient ces dommages. Ils peuvent utiliser diverses tactiques telles que le rééchantillonnage de l'ensemble de données, la collecte de données supplémentaires et l'essai d'un algorithme différent.
Il s'agit d'une autre question qui permet d'évaluer si votre candidat suit les dernières tendances et actualités en matière d'apprentissage automatique.
Développé par OpenAI, GPT-3 est un nouveau modèle de génération de langage qui peut générer ce qui semble être des morceaux de conversation de niveau humain (aussi grands que des ouvrages de la taille d'un roman) ainsi que créer du code à partir du langage naturel.
Si vos candidats sont passionnés par l'apprentissage automatique, ils auront probablement beaucoup à dire sur GPT-3.
Ici, vous testez la compréhension de votre candidat sur les différentes méthodes d'apprentissage automatique.
Actuellement, Google utilise Recaptcha pour trouver des données étiquetées sur les panneaux de signalisation et les devantures de magasins.
Cette question devrait être connue de tous les ingénieurs en apprentissage automatique. Votre candidat doit se familiariser avec les outils de construction de pipelines de données, tels qu'Apache Airflow. Il doit également avoir une connaissance approfondie de l'endroit où héberger les modèles et les pipelines, comme par exemple AWS, Azure, Google Cloud, etc.
Vous voulez que votre candidat vous parle de son expérience de la construction et de la mise à l'échelle d'un pipeline de données fonctionnel.
Ici, vous évaluez la capacité de votre candidat à visualiser correctement les données ainsi que sa connaissance des outils populaires, tels que Plot.ly, Tableau, Python's seaborn, et bien d'autres.
Votre candidat devrait indiquer qu'il rechercherait les données manquantes ou corrompues, puis les remplacerait par une autre valeur ou supprimerait ces colonnes ou lignes.
Votre candidat doit indiquer que le score F1 est un moyen de mesurer la performance d'un modèle et qu'il l'utilise dans les tests de classification.
Cette question devrait être très simple pour les ingénieurs en apprentissage automatique, mais il est prudent de poser quelques questions faciles pour s'assurer que votre candidat maîtrise les principes de base.
L'erreur de type I est un faux positif. Elle prétend que quelque chose s'est produit alors que ce n'est pas le cas. L'erreur de type II est un faux négatif. Elle prétend que rien ne s'est produit alors que quelque chose s'est produit.
Votre candidat doit expliquer que la courbe ROC est un graphique représentant deux paramètres, les taux de vrais et de faux positifs.
Il est important de vérifier s'il comprend qu'une courbe ROC est généralement utilisée pour représenter le compromis entre les faux positifs, c'est-à-dire la probabilité de déclenchement de fausses alarmes, et les vrais positifs, c'est-à-dire le degré de sensibilité du modèle.
C'est une excellente question pour voir si votre candidat a fait des recherches sur votre entreprise. Un bon ingénieur en apprentissage automatique comprend que ses compétences ne sont utiles que si elles permettent d'obtenir des résultats commerciaux.
Imaginons que vous recrutiez pour Netflix. Dans ce cas, votre candidat pourrait dire qu'en développant un modèle de recommandation plus précis, les utilisateurs seraient plus satisfaits des programmes qu'ils regardent, ce qui se traduirait par une fidélisation des utilisateurs et des bénéfices à long terme.
Il s'agit là d'une autre question permettant d'évaluer si votre candidat a plus qu'un simple intérêt "sur le tas" pour l'apprentissage automatique.
Un ingénieur en apprentissage automatique passionné donnera plusieurs exemples de modèles d'apprentissage automatique qu'il apprécie - et saura comment chacun d'entre eux a été mis en œuvre.
Ce type de question vous permet de voir si votre candidat peut être un ajout précieux à l'équipe actuelle.
Un bon candidat montrera qu'il comprend pourquoi votre processus de données a été mis en place d'une manière particulière. Il vous donnera un retour d'information constructif et perspicace.
Cette question est simple, mais elle permet de s'assurer que votre candidat connaît les bases.
Les trois étapes de la construction d'un modèle dans l'apprentissage automatique sont les suivantes :
Construction du modèle : L'ingénieur choisit un algorithme approprié et l'entraîne selon des critères qui lui sont donnés.
Test du modèle : L'ingénieur utilise des données de test pour vérifier la précision du modèle.
Application du modèle : L'ingénieur apporte les modifications nécessaires après le test et commence à utiliser le modèle en temps réel.
C'est également un bon signe si votre candidat mentionne qu'une fois l'étape de l'application du modèle terminée, il devra vérifier le modèle de temps en temps pour s'assurer qu'il fonctionne correctement et qu'il est à jour.
L'apprentissage profond est un type d'apprentissage automatique, mais cette question vous aidera à déterminer si votre candidat comprend les principales différences.
Les cinq principales différences entre l'apprentissage automatique et l'apprentissage profond sont les suivantes :
L'apprentissage automatique consiste pour les machines à prendre leurs propres décisions à partir de données antérieures. L'apprentissage profond consiste à utiliser des réseaux neuronaux artificiels.
L'apprentissage automatique ne nécessite qu'une petite quantité de données lors de la phase de formation initiale. L'apprentissage en profondeur nécessite une grande quantité de données.
L'apprentissage automatique ne nécessite pas de machines haut de gamme, car il n'a pas besoin d'une grande puissance de calcul. En revanche, l'apprentissage en profondeur nécessite des machines haut de gamme.
Avec l'apprentissage automatique, un ingénieur doit identifier et coder manuellement la plupart des caractéristiques. Avec l'apprentissage profond, le modèle utilise les données qu'il reçoit pour apprendre lui-même les caractéristiques.
Avec l'apprentissage automatique, la machine sépare le problème en deux parties, les résout individuellement, puis les combine. Avec l'apprentissage profond, la machine résout le problème de bout en bout.
Là encore, vous testez la capacité de votre candidat à comprendre certaines applications courantes de l'apprentissage automatique dans le monde réel.
Voici quelques bons exemples qu'ils peuvent donner :
Ladétection des fraudes, dans laquelle un modèle peut être formé pour découvrir des schémas suspects qui pourraient impliquer une fraude.
Ladétection des spams, dans laquelle les ingénieurs entraînent un modèle à utiliser les données passées concernant la catégorisation des e-mails en tant que courrier indésirable ou non.
L'analyse des sentiments dans les documents, dans laquelle les spécialistes de l'apprentissage automatique peuvent entraîner un modèle à analyser des documents pour déterminer si le ton général est positif, négatif ou neutre
Lesdiagnostics médicaux, dans lesquels des modèles peuvent être formés pour déterminer si un patient souffre d'une maladie.
Il s'agit d'une autre question de base, mais importante, qui vous permet de vérifier si votre candidat a couvert toutes les bases.
La principale différence est que l'apprentissage inductif observe des cas pour en tirer une conclusion. L'apprentissage déductif conclut les expériences.
Bien qu'il existe de nombreuses variables expliquant pourquoi une personne choisirait un algorithme plutôt qu'un autre, cette question vous permet de voir si votre candidat suit un processus de pensée logique lorsqu'il sélectionne le bon algorithme.
Voici quelques exemples de problèmes et de solutions possibles :
Problème : L'ensemble de données d'entraînement est petit. Solution : Utiliser des modèles ayant un biais élevé et une faible variance.
Problème : L'ensemble de données d'entraînement est important. Solution : Utiliser des modèles à faible biais et à forte variance.
Problème : Faible précision. Solution : Tester et effectuer une validation croisée de différents algorithmes.
Lorsqu'un utilisateur achète quelque chose sur Amazon, Amazon stocke ces données d'achat pour référence ultérieure et trouve les produits les plus susceptibles d'être achetés.
Les recommandations futures sont rendues possibles par l'algorithme d'association, qui peut identifier des modèles dans un ensemble de données donné.
SVM signifie machine à vecteur de support. Il s'agit d'une classe d'algorithmes qui analysent des modèles.
Votre candidat doit montrer qu'il est capable de donner des étapes claires et logiques.
Pour créer un filtre anti-spam :
Vous devez alimenter le filtre anti-spam avec des milliers d'e-mails précédemment classés comme "spam" ou "non spam"
L'algorithme d'apprentissage automatique supervisé commence alors à détecter les e-mails susceptibles d'être du spam sur la base des mots utilisés dans ceux-ci (par exemple, offre gratuite, loterie, etc.).
Le filtre anti-spam utilise ensuite des algorithmes tels que les machines à vecteurs de support (SVM) et les arbres de décision, ainsi qu'une analyse statistique pour classer les nouveaux e-mails entrants dans la catégorie "spam" ou "non spam"
S'il détermine que la probabilité de spam est élevée, il l'étiquettera comme tel et l’e-mail n'entrera pas dans la boîte de réception.
L'ingénieur doit ensuite tester la précision du modèle pour déterminer le meilleur algorithme à utiliser, c'est-à-dire celui dont la précision de détection du spam est la plus élevée.
En termes simples, un système de recommandation est un système d'information qui prédit ce qu'un utilisateur aimerait voir en filtrant les modèles de choix précédents de l'utilisateur.
Les systèmes de recommandation vous envoient des recommandations de produits d'Amazon en fonction de ce que vous avez acheté précédemment, par exemple. Ils sont également utilisés par Netflix lorsque la plateforme recommande des émissions que vous aimeriez regarder.
Ici, vous vérifiez si votre candidat peut faire preuve de raisonnement logique et d'réflexion critique lorsqu'il fait des choix.
Il n'existe pas d'algorithme "parfait" qui fonctionne dans toutes les situations. C'est pourquoi un bon ingénieur choisira un algorithme en se posant ces questions :
Quel est l'objectif de l'entreprise ?
Les données sont-elles étiquetées, non étiquetées ou mixtes ?
Le problème est-il lié au regroupement, à la régression, à la classification ou à l'association ?
Quelle est la quantité de données ?
Les données sont-elles catégoriques ou continues ?
L'apprentissage automatique devient de plus en plus important chaque année. Les applications et les cas d'utilisation se multiplient : Aujourd'hui, il est même utilisé dans les technologies de recrutement. Il est donc crucial pour votre entreprise de trouver les meilleurs ingénieurs en apprentissage automatique.
Tout d'abord, vous devez rédiger des descriptions de poste claires et attrayantes sur l'apprentissage automatique afin d'attirer les candidats les plus qualifiés. Vous devez également utiliser les meilleures questions d'entretien pour les ingénieurs en apprentissage automatique, que nous vous proposons dans cet article.
Une autre méthode de sélection inestimable que vous pouvez utiliser est le test de compétences, qui est efficace, rentable et vous aide à embaucher sans préjugés. Évaluez les compétences des candidats au début de votre processus de recrutement afin d'identifier vos meilleurs talents et ne convoquez que les candidats qualifiés à un entretien.
Cette approche peut remplacer efficacement la présélection des CV, qui peut être partiale et très gourmande en ressources.
Pour obtenir les meilleurs résultats, utilisez nos test Apprentissage automatique et Data Science pour évaluer les compétences des candidats en apprentissage automatique, réseaux neuronaux, apprentissage profond et statistiques.
Avec TestGorilla à vos côtés, vous pouvez embaucher des professionnels hors pair en apprentissage automatique en une fraction du temps dont vous auriez besoin autrement et aider ainsi votre entreprise à atteindre ses objectifs.
Inscrivez-vous gratuitement dès aujourd'hui et commencez à prendre de meilleures décisions d'embauche, plus rapidement et sans parti pris.
Créez des tests de recrutement en quelques minutes pour évaluer les candidats, gagner du temps et recruter les meilleurs talents.
Pas de spam. Désabonnez-vous à tout moment.
Nos tests de sélection identifient les meilleur·e·s candidat·e·s et rendent vos décisions d’embauche plus rapides, plus simples et impartiales.