Diversos sectores han empezado a implementar el aprendizaje automático (ML) y la inteligencia artificial (IA) en los últimos años. Algunos ejemplos son la atención sanitaria, el comercio minorista, las finanzas, la banca y la manufactura.
Para los managers de contratación, esto significa que están compitiendo entre sectores para encontrar expertos cualificados en ML e IA, lo que dificulta aún más la tarea. Encontrar el talento adecuado (científicos de datos, ingenieros de aprendizaje automático, etc.) nunca ha sido más importante.
Por eso es tan importante hacer las preguntas correctas de entrevista a los ingenieros de aprendizaje automático, para contratar únicamente a los mejores candidatos, y combinar esto con otros métodos para evaluar con precisión la experiencia y el conocimiento de los candidatos, como las pruebas de habilidades.
Hazte la vida más fácil eligiendo una plataforma de pruebas de habilidades recomendada como TestGorilla y utiliza nuestras pruebas de Ciencia de Datos y Aprendizaje Automático para evaluar a los candidatos.
Los candidatos que obtengan buenos resultados en estas pruebas comprenderán perfectamente los fundamentos de la ciencia de datos y el aprendizaje automático. Además, tendrán los conocimientos necesarios sobre redes neuronales, programación, estadística y aprendizaje profundo.
En este artículo, también hemos recopilado una lista de 55 preguntas de entrevista para ingenieros de aprendizaje automático que puedes usar en tus entrevistas o incluir como preguntas personalizadas en las evaluaciones.
Además, proporcionamos ejemplos de respuestas y explicamos por qué estas respuestas son importantes.
El aprendizaje profundo es una forma particular de aprendizaje automático basado en redes neuronales. Implica el uso de principios de neurociencia y retropropagación modelar correctamente grandes conjuntos de datos, tanto semiestructurados como no etiquetados.
En resumen, el aprendizaje profundo es el mecanismo mediante el cual un algoritmo aprende sin supervisión. Aprende representaciones de datos a través de redes neuronales.
En esta pregunta, estás evaluando la comprensión del candidato sobre los matices del rendimiento del modelo. Por lo general, las preguntas sobre aprendizaje automático se centran en los detalles. Sin embargo, modelos más precisos pueden tener un peor rendimiento al hacer predicciones.
El candidato debe entender que la precisión de un modelo es solo un aspecto de qué tan bien funciona el modelo.
Tu candidato debe demostrar que comprende las tres rutas clave para evitar el sobreajuste de un modelo.
Para evitar el sobreajuste de un modelo, un científico de datos puede:
Simplificar el modelo o eliminar parte del ruido reduciendo la varianza.
Utilizar tácticas de validación cruzada, como k-folds.
Utilizar tácticas de regularización, por ejemplo LASSO, para penalizar los parámetros que podrían permitir el sobreajuste
Una tabla hash es una estructura de datos que crea una matriz asociativa. Se asigna una clave a determinados valores mediante una función hash. Las tablas hash suelen utilizarse para indexar bases de datos.
Con esta pregunta, verificas cuánto sabe tu candidato sobre tu modelo de negocio y sobre el sector en general.
También verificas si entiende cómo se corresponden los datos con los resultados de tu empresa y cómo aplicará estos conocimientos en su trabajo. ¿Entiende los problemas que tu empresa quiere resolver con los datos?
Los mejores candidatos se mantendrán al tanto de los últimos informes científicos sobre aprendizaje automático. Busca revistas bien referenciadas, como Nature.
El año 2016 fue importante para la historia del aprendizaje profundo y el aprendizaje automático. En ese momento, AlphaGo, un programa de computadora que juega al Go, venció al mejor jugador humano de Go, Lee Sedol.
Tu candidato debe demostrar que entiende cómo lo consiguió AlphaGo. Utilizó la búsqueda de árboles Monte-Carlo con redes neuronales profundas. Estas redes se entrenan a través del aprendizaje supervisado de partidas humanas y del juego propio.
Aquí está poniendo a prueba el interés de tu candidato por el aprendizaje automático a alto nivel y no solo su capacidad para aplicarlo en tareas específicas.
Se han producido varios avances importantes en computación cuántica. Aquí estás evaluando el interés de tu candidato en el aprendizaje automático a un nivel elevado y no solo su capacidad para implementarlo en tareas específicas. Ha habido varios avances importantes en computación cuántica.
Los candidatos con artículos de investigación publicados pueden destacarse realmente aquí, ya que esto demuestra una valiosa experiencia científica y académica.
Con esta pregunta, estás poniendo a prueba el conocimiento de JSON de tu candidato. Este es un formato de archivo popular que se asocia con JavaScript.
Tu candidato debe demostrar que entiende los seis tipos de datos JSON básicos: objetos, cadenas, matrices, booleanos, números y valores nulos.
Una lista enlazada es un grupo ordenado de elementos donde los elementos están conectados a través de punteros. Una lista enlazada tiene más posibilidades de crecer orgánicamente.
Un array tiene que definirse para crecer. Un array también asumirá lo mismo para todos los elementos, mientras que la lista enlazada no. Por último, barajar un array es complejo y costoso. Barajar una lista enlazada implica simplemente cambiar los punteros.
Tu candidato debe mostrar una comprensión profunda de los objetivos comunes de la regresión logística, como la predicción, la clasificación y más. Asegúrate de que puedan hablar sobre casos de uso y ejemplos.
Asegúrate de que tu candidato entienda que la regresión proporciona resultados continuos mientras que la clasificación crea valores distintos para categorías estrictas.
Elegirías la clasificación sobre la regresión si deseas que la salida muestre que los puntos de datos pertenecen a categorías específicas.
El candidato debe demostrar que entiende la poda.
La poda de un árbol de decisión se refiere al proceso de eliminar ramas con escaso poder predictivo. Esto simplifica el modelo y aumenta la precisión predictiva.
Ejemplos de poda son la poda de complejidad de costos y la poda de error reducido, siendo esta última la versión más sencilla de la poda. En ella, podas reemplazando cada nodo, siempre y cuando no disminuya la precisión predictiva.
Esta pregunta pone a prueba la capacidad de tu candidato para explicar detalles técnicos en términos sencillos. Esto es importante para una buena comunicación entre el personal técnico y no técnico.
Busca candidatos que puedan explicar diferentes algoritmos de manera simple y fácil de entender.
La diferencia entre el aprendizaje supervisado y el no supervisado radica en la forma en que se trata los datos etiquetados. El aprendizaje no supervisado no necesita datos etiquetados, mientras que el supervisado sí los necesita.
Tus candidatos deben indicar que una transformada de Fourier es un método que descompone funciones en funciones de frecuencia espacial o temporal.
Es una ruta típica para extraer características de señales de audio y otras series temporales.
Estás buscando candidatos que puedan explicar que usarían técnicas de validación cruzada para segmentar el conjunto de datos o dividirlo en conjuntos de prueba y entrenamiento. A continuación, aplicarían una serie de métricas de rendimiento.
Lo crucial aquí es que tus candidatos te muestren que entienden que medir con precisión los modelos depende de elegir las medidas correctas para la citación correcta.
Esta pregunta te ayuda a ver si tu candidato puede escribir código pensando en paralelismo.
Muestra si podrían manejar la concurrencia en implementaciones de programación que tratan con grandes volúmenes de datos.
Aunque se trata de una pregunta de ingeniería de software, es útil para comprobar si los candidatos tienen conocimientos sobre estructuras de datos y algoritmos. Hay varias rutas para comprobar si hay palíndromos.
Esta es una oportunidad para que tus candidatos demuestren que han investigado sobre tu empresa y tu sector.
Un buen candidato demostraría que entiende qué es lo que genera ingresos para tu empresa y los tipos de clientes que tiene tu negocio. Y explicaría cómo podría implementar modelos de aprendizaje automático para resolver los problemas de tu empresa.
Esta es otra pregunta para verificar si tu candidato está realmente interesado en el aprendizaje automático.
Alguien que realmente ama el aprendizaje automático probablemente haya creado sus propios proyectos secundarios y, por lo tanto, sabe dónde obtener excelentes conjuntos de datos. Este tipo de pregunta te ayuda a separar a los ingenieros apasionados de los ingenieros que solo trabajan por un salario.
Esta pregunta le ayuda a encontrar candidatos que hayan realizado proyectos de aprendizaje automático en su tiempo libre, no solo en trabajos corporativos. Pone a prueba si tus candidatos pueden distribuir el tiempo de la GPU de forma eficaz y si saben cómo obtener recursos para proyectos.
Los candidatos cualificados conocerán el Netflix Prize, un concurso en el que Netflix ofrecía un premio de un millón de dólares a quien pudiera crear un algoritmo de filtrado colaborativo mejor.
BellKor (los ganadores) utilizaron varios métodos diferentes para mejorar el algoritmo en un 10%. Los candidatos fuertes recordarán no solo el concurso, sino también la solución que creó BellKor, lo que demostraría que les apasiona el aprendizaje automático desde hace mucho tiempo.
Los ingenieros de aprendizaje automático deben dominar muchos formatos de datos clave, incluido SQL. Las respuestas a esta pregunta mostrarán si tu candidato puede manipular bases de datos SQL.
Los candidatos deberían explicar que pueden emparejar y unir tablas utilizando claves externas y la clave primaria de la tabla correspondiente. También deberían explicarte cómo configurarían tablas SQL.
park es la herramienta de big data más solicitada. Sin embargo, si tu empresa utiliza una herramienta diferente, siéntete libre de mencionarla en lugar de Spark.
Esta pregunta le ayudará a identificar a los candidatos que están familiarizados con estas herramientas y que son capaces de ponerse manos a la obra. Las respuestas también te mostrarán quién ha dedicado tiempo a investigar y familiarizarse con tu empresa antes de la entrevista.
En este caso, estás evaluando la capacidad de tu candidato para aumentar el poder predictivo. Las técnicas de ensemble combinan diferentes algoritmos de aprendizaje para crear un rendimiento predictivo mejorado.
Este enfoque crea un modelo robusto que suele ser resistente a pequeños cambios en los datos que podrían sesgar la precisión de la predicción. Los candidatos experimentados podrán enumerar ejemplos de métodos ensemble, como el método de "conjunto de modelos", bagging, boosting, etc.
Tu candidato debe entender que un modelo discriminativo simplemente aprende la diferencia entre las categorías de datos, mientras que un modelo generativo aprende las categorías de datos.
También deben indicar que para tareas de clasificación, un modelo discriminativo generalmente superará a uno generativo.
La regularización L1 es más dispersa, ya que a las variables se les asigna un 0 o un 1 (binario). La regularización L2 distribuye los errores entre los términos.
La precisión es el número de positivos acertados que afirma el modelo en comparación con el número de positivos afirmados. También se denomina valor predictivo positivo.
La recuperación es el número de positivos declarados en comparación con el número de positivos encontrados en los datos. También se conoce como tasa de verdaderos positivos.
El error de varianza se produce cuando el algoritmo de aprendizaje es demasiado complejo, lo que lleva a que tu modelo se ajuste demasiado a los datos.
El error de sesgo ocurre cuando el algoritmo de aprendizaje tiene suposiciones demasiado simplificadas. Esto crea el problema opuesto al error de varianza. El error de sesgo podría causar generalización de conocimientos de entrenamiento a conjunto de pruebas y el subajuste del modelo a los datos. Esto llevaría a un modelo que no puede tener una alta precisión predictiva.
Tu candidato debe demostrar que entiende que nunca es una buena idea tener un modelo con alta varianza o alto sesgo. Tiene que haber un equilibrio entre ambos.
Esta pregunta evalúa si tu candidato ha trabajado con fuentes de datos externas. Si lo han hecho, es probable que tengan algunas APIs preferidas. Los mejores candidatos te dirán qué piensan sobre ciertas APIs y darán detalles de los flujos de trabajo y experimentos que han realizado.
Esta pregunta evalúa si tu candidato es capaz de manejar el procesamiento de datos en formatos desordenados.
XML ocupa mucho más espacio que CSV. XML utiliza etiquetas para diseñar pares clave-valor en forma de árbol.
Los CSV utilizan separadores para crear categorías de datos y organizarlos en columnas. Normalmente, un ingeniero querrá procesar los datos XML para convertirlos en un CSV utilizable.
Esta pregunta evalúa la comprensión de tu candidato sobre el daño que pueden causar los conjuntos de datos desbalanceados.
Los candidatos deben mostrar cómo equilibrarían este daño. Pueden utilizar varias tácticas, como volver a muestrear el conjunto de datos, recopilar más datos o probar un algoritmo diferente.
Esta es otra pregunta que evalúa si tu candidato sigue las últimas tendencias y novedades en aprendizaje automático.
Desarrollado por OpenAI, GPT-3 es un nuevo modelo de generación de lenguaje que puede generar lo que parecen piezas conversacionales de nivel humano (tan grandes como obras de tamaño novela), así como crear código a partir de lenguaje natural.
Si a tus candidatos les apasiona el aprendizaje automático, es probable que tengan mucho que decir sobre GPT-3.
Aquí, estás poniendo a prueba la comprensión de tu candidato de los diferentes métodos de aprendizaje automático.
Actualmente, Google utiliza Recaptcha para encontrar datos etiquetados en señales de tráfico y escaparates.
Esto debería ser de conocimiento común para los ingenieros de aprendizaje automático. Tu candidato debería estar familiarizado con las herramientas de construcción de canalizaciones de datos, como Apache Airflow. También debe tener un conocimiento profundo de dónde alojar modelos y pipelines, como, por ejemplo, AWS, Azure, Google Cloud, etc.
Quieres que tu candidato te guíe a través de su experiencia práctica construyendo y escalando un pipeline de datos funcional.
Aquí, estás evaluando la capacidad de tu candidato para visualizar correctamente los datos, así como su conocimiento sobre herramientas populares, como Plot.ly, Tableau, seaborn de Python, y más.
Tu candidato debe afirmar que buscaría los datos faltantes o corruptos y luego los reemplazaría por otro valor o eliminaría esas columnas o filas.
El candidato debe indicar que la puntuación F1 es una forma de medir el rendimiento de un modelo y que la utilizaría en pruebas de clasificación.
Ésta debería ser una pregunta muy sencilla para los ingenieros de aprendizaje automático, pero es prudente hacer alguna que otra pregunta fácil para asegurarse de que el candidato domina los conceptos básicos.
El error de tipoI es un falso positivo. Afirma que algo ha sucedido cuando no ha sido así. El error de tipo II es un falso negativo. Afirma que no ha pasado nada cuando sí ha pasado algo.
El candidato debe explicar que la curva ROC es un gráfico que representa dos parámetros, las tasas de verdaderos y falsos positivos.
Un aspecto clave a tener en cuenta aquí es si entienden que una curva ROC se utiliza normalmente como un sustituto del compromiso entre falsos positivos, es decir, la probabilidad de que se disparen falsas alarmas, frente a los verdaderos positivos, es decir, lo sensible que es el modelo.
Esta es una excelente pregunta para ver si tu candidato ha investigado sobre tu empresa. Un buen ingeniero en aprendizaje automático entiende que sus habilidades solo son útiles si generan resultados comerciales.
Digamos que estás contratando para Netflix. En ese caso, tu candidato podría decir que al desarrollar un modelo de recomendación más preciso, los usuarios estarían más satisfechos con los programas que ven, lo que llevaría a la retención de usuarios y ganancias a largo plazo.
Esta es otra pregunta para evaluar si tu candidato tiene algo más que un interés "laboral" por el aprendizaje automático.
Un ingeniero de aprendizaje automático apasionado dará varios ejemplos de modelos de aprendizaje automático que le gusten - y será conocedor de cómo se implementó cada uno.
Este tipo de pregunta te permite comprobar si el candidato puede ser una incorporación valiosa al equipo actual.
Un buen candidato demostrará que entiende por qué el proceso de datos se ha establecido de una manera determinada. Te dará un feedback constructivo y perspicaz.
Es una pregunta sencilla, pero garantiza que el candidato conoce los conceptos básicos.
Las tres etapas de construcción de modelos en el aprendizaje automático son:
Construcción del modelo, en la que el ingeniero elige un algoritmo adecuado y lo entrena según los criterios que se le indican.
Prueba del modelo, el ingeniero utiliza datos de prueba para comprobar la precisión del modelo.
Aplicación del modelo, el ingeniero realiza las modificaciones necesarias después de las pruebas y empieza a utilizar el modelo en tiempo real.
También es una buena señal si el candidato menciona que, una vez completada la fase de aplicación del modelo, necesitará comprobarlo de vez en cuando para asegurarse de que funciona correctamente y está actualizado.
El aprendizaje profundo es un tipo de aprendizaje automático, pero esta pregunta te ayudará a determinar si tu candidato entiende las principales diferencias.
Las cinco diferencias principales entre el aprendizaje automático y el aprendizaje profundo son las siguientes:
El aprendizaje automático es cuando las máquinas toman sus propias decisiones utilizando datos anteriores. El aprendizaje profundo es cuando las máquinas lo hacen utilizando redes neuronales artificiales.
El aprendizaje automático solo necesita una pequeña cantidad de datos en la fase de entrenamiento inicial. El aprendizaje profundo necesita una gran cantidad de datos.
El aprendizaje automático no requiere máquinas de gama alta, ya que no necesitan mucha potencia de cálculo. En cambio, el aprendizaje profundo requiere máquinas de gama alta.
Con el aprendizaje automático, un ingeniero debe identificar y programar manualmente la mayoría de las características. Con el aprendizaje profundo, el modelo utiliza los datos que recibe para aprender características por sí mismo.
Con el aprendizaje automático, la máquina separa el problema en dos secciones, las resuelve individualmente y luego las combina. Con el aprendizaje profundo, la máquina resuelve el problema de principio a fin.
De nuevo, estás poniendo a prueba la capacidad de tu candidato para comprender algunas aplicaciones comunes del aprendizaje automático en el mundo real.
Algunos ejemplos que podrían dar son:
Detección de fraude de fraude, en la que se puede entrenar un modelo para descubrir patrones sospechosos que podrían implicar fraude.
Detección de correo no deseado, en la que los ingenieros entrenan un modelo para utilizar datos anteriores sobre la categorización de correos electrónicos como basura o no basura.
Análisis de sentimiento de documentos, en el que los especialistas en aprendizaje automático pueden entrenar un modelo para analizar documentos y averiguar si el tono general es positivo, negativo o neutro.
Diagnóstico médico, en el que se pueden entrenar modelos para averiguar si un paciente padece una enfermedad
Esta es otra pregunta básica pero importante que le permitirá comprobar si su candidato tiene todas las bases cubiertas.
La diferencia principal es que el aprendizaje inductivo observa instancias para sacar una conclusión, mientras que el aprendizaje deductivo concluye experiencias.
Aunque hay muchas variables que podrían influir en por qué alguien elegiría un algoritmo sobre otros, esta pregunta te permite ver si tu candidato sigue un proceso de pensamiento lógico al seleccionar el adecuado.
Aquí tienes algunos ejemplos de diferentes problemas y posibles soluciones:
Problema: El conjunto de datos de entrenamiento es pequeño. Solución: Utilizar modelos con alto sesgo y baja varianza.
Problema: el conjunto de datos de entrenamiento es grande. Solución: Utilizar modelos con bajo sesgo y alta varianza.
Problema: Baja precisión. Solución: Probar y validar de forma cruzada diferentes algoritmos.
Una vez que un usuario compra algo en Amazon, este almacena los datos de esa compra para futuras referencias y encuentra los productos que tienen más probabilidades de ser comprados.
Las recomendaciones futuras son posibles gracias al algoritmo de asociación, que puede identificar patrones en un conjunto de datos determinado.
SVM son las siglas en inglés de máquina de vectores de soporte. Son una clase de algoritmos que analizan patrones.
Tu candidato debe demostrar que es capaz de dar pasos claros y lógicos.
Para crear un filtro de spam:
Es necesario alimentar el filtro de spam con miles de correos electrónicos previamente categorizados como "spam" o "no spam"
A continuación, el algoritmo de aprendizaje automático supervisado empieza a detectar los correos electrónicos susceptibles de ser spam basándose en las palabras utilizadas en ellos (por ejemplo, oferta gratuita, lotería, etc.).
A continuación, el filtro de spam utiliza algoritmos como máquinas de vectores soporte (SVM) y árboles de decisión, así como análisis estadísticos para clasificar los nuevos correos electrónicos entrantes en "spam" o "no spam".
Si determina que la probabilidad de spam es alta, lo etiquetará como tal y el correo no entrará en la bandeja de entrada.
Luego, el ingeniero necesita probar la precisión del modelo para determinar el mejor algoritmo a utilizar, es decir, aquel con la mayor precisión en la detección de spam.
En términos sencillos, un sistema de recomendación es un sistema de información que predice lo que a un usuario le gustaría ver filtrando a través de patrones de elección previos del usuario.
Los sistemas de recomendación te envían recomendaciones de productos de Amazon basándose en lo que has comprado anteriormente, por ejemplo. También los utiliza Netflix cuando la plataforma te recomienda programas que te pueden gustar.
En este caso, estás comprobando si tu candidato puede demostrar razonamiento lógico y pensamiento crítico a la hora de tomar decisiones.
No existe un algoritmo "perfecto" que funcione en todas las situaciones. Por lo tanto, un buen ingeniero elegirá un algoritmo utilizando estas preguntas:
¿Cuál es el objetivo de la empresa?
¿Se trata de datos etiquetados, no etiquetados o mixtos?
¿Se trata de un problema de agrupación, regresión, clasificación o asociación?
¿Cuántos datos hay?
¿Los datos son categóricos o continuos?
El aprendizaje automático cada año es más importante. Las aplicaciones y los casos de uso son cada vez mayores: Hoy en día, incluso se utiliza en la tecnología de reclutamiento. Por lo tanto, encontrar a los mejores ingenieros de aprendizaje automático es crucial para tu empresa.
En primer lugar, debes redactar descripciones de puestos de aprendizaje automático claras y atractivas para atraer a los candidatos más cualificados. También deberías utilizar las mejores preguntas de entrevista para ingenieros de aprendizaje automático, que proporcionamos en este artículo.
Otro método de selección muy valioso que puedes utilizar es las pruebas de habilidades, que es eficiente, rentable y te ayuda a contratar sin prejuicios. Evalúa las habilidades de los candidatos al principio de tu proceso de contratación para identificar a sus mejores talentos e invita solo a los candidatos cualificados a una entrevista.
Este enfoque puede sustituir eficazmente a la selección de CV, que puede requerir muchos recursos y es susceptible a los prejuicios.
Obtén los mejores resultados, utilizando nuestras pruebas de aprendizaje automático y Ciencia de Datos para evaluar las habilidades de tus candidatos en aprendizaje automático, redes neuronales, aprendizaje profundo y estadística.
Con TestGorilla a tu lado, puedes contratar profesionales excepcionales en aprendizaje automático en una fracción del tiempo que necesitarías de otra forma, lo que ayuda a tu empresa a alcanzar sus objetivos.
Regístrate gratis hoy mismo y empieza a tomar decisiones de contratación más rápidas, fáciles y libres de prejuicios.
Crea evaluaciones previas al empleo en minutos para evaluar a los candidatos, ahorrar tiempo y contratar a los mejores talentos.
Sin spam. Cancela la suscripción en cualquier momento.
Nuestras pruebas de selección identifican a los mejores candidatos y hacen tus decisiones de contratación más rápidas, fáciles y libres de prejuicios.