No atual cenário de negócios orientado por dados, poucas funções são mais cruciais do que a de um desenvolvedor ETL. Esses especialistas em software são responsáveis por projetar sistemas complexos de armazenamento de dados que são essenciais para o business intelligence. Em resumo, eles transformam Big Data em "Big Wins".
ETL significa extrair, transformar e carregar, referindo-se ao procedimento geral de transferência de dados de várias fontes para um único data warehouse. Os dados são então usados pelos analistas para tomar melhores decisões de negócios.
Não é preciso dizer que, se você precisa de um desenvolvedor ETL, é de vital importância contratar o desenvolvedor certo para a sua empresa. Não é segredo que as empresas experientes em dados superam seus concorrentes.
Os recrutadores devem estar cientes de que as ferramentas de ETL podem variar muito. Por esse motivo, você precisa adaptar o processo de recrutamento às necessidades específicas de ETL da sua organização, sempre que possível.
Recomendamos o uso de uma avaliação de habilidades antes da entrevista, a fim de selecionar os melhores candidatos e se concentrar somente neles, e não perder tempo entrevistando candidatos inadequados.
Abaixo, você encontrará 25 das mais importantes perguntas de entrevista para desenvolvedores de ETL para ajudar a fazer a melhor contratação. Dividimos as perguntas em três grupos, iniciante, intermediário e avançado, para diferentes níveis de experiência.
Você também encontrará exemplos de respostas para sua referência, para que possa avaliar as habilidades dos candidatos com confiança, mesmo que não tenha nenhuma habilidade de desenvolvimento de ETL.
Se você estiver contratando um desenvolvedor de ETL de nível básico com até 2 anos de experiência, considere usar estas perguntas de entrevista para iniciantes.
Exemplo de resposta:
Embora a abreviação implique um processo simples de três etapas, o ETL, na verdade, engloba mais etapas. O ETL refere-se à extração de dados de diferentes fontes, sua transformação e carregamento em um data warehouse e a eventual análise dos dados do data warehouse.
Em resumo, o ETL abrange o transporte de dados em todas as quatro áreas: extração, transformação, carregamento e análise.
Exemplo de resposta:
O armazenamento de dados é um componente essencial da inteligência comercial. Ao reunir diferentes fontes de dados em uma biblioteca única e unificada, os analistas podem trabalhar com mais eficiência, obter insights mais aprofundados e identificar padrões em diferentes conjuntos de dados.
Em última análise, isso ajuda as empresas a serem mais competitivas, melhorando seu processo de tomada de decisão.
Exemplo de resposta:
O ETL transforma os dados antes de serem carregados no sistema de destino, enquanto o ELT transforma os dados dentro do data warehouse. Dos dois, o ELT é geralmente considerado a melhor solução para grandes quantidades de dados, oferecendo uma maneira mais flexível e ágil de trabalhar com dados.
Exemplo de resposta:
O particionamento refere-se à divisão de grandes conjuntos de dados em áreas menores e mais gerenciáveis com base em características compartilhadas. Seu objetivo é facilitar a navegação no data warehouse e melhorar o desempenho do processamento de consultas.
Exemplo de resposta:
Há várias ferramentas de software de ETL diferentes no mercado, mas todas têm o mesmo objetivo de integração de dados. Algumas das ferramentas de ETL mais populares são:
Informatica PowerCenter
IBM InfoSphere DataStage
Oracle Data Integrator
Microsoft SQL Server Integration Services (SSIS)
Xplenty
Exemplo de resposta:
Os fatos são informações quantitativas sobre uma empresa, como números de vendas ou saldos de contas. Eles são armazenados em uma tabela de fatos. Há três tipos diferentes de fatos:
Fatos não aditivos não podem ser somados em nenhuma dimensão da tabela de fatos, como uma porcentagem
Fatos semi-aditivos podem ser somados em algumas, mas não em todas, as dimensões da tabela de fatos, mas não para todas as dimensões da tabela de fatos, como um número de funcionários
Fatos aditivos podem ser somados em todas as dimensões da tabela de fatos, como vendas
Exemplo de resposta:
As tabelas de fatos contêm medidas e métricas sobre uma empresa. As tabelas de dimensão são unidas às tabelas de fatos por uma chave estrangeira e mostram as características descritivas dos fatos nelas contidos. Enquanto as tabelas de fatos são granulares, as tabelas de dimensões são prolixas e detalhadas.
Exemplo de resposta:
O teste regular é uma parte essencial do processo de ETL e garante que os dados cheguem ao depósito de análise de forma suave e precisa.
Os testes de ETL podem ser realizados das seguintes maneiras:
Revisar as fontes primárias para garantir que tenham sido extraídas sem perda de dados
Verificar se os dados foram transformados no tipo de dados apropriado para o warehouse
Verificar se o warehouse informa com precisão os casos de dados inválidos
Documente todos os erros ocorridos durante o processo de ETL
A seguir, você encontrará algumas perguntas de nível intermediário para desenvolvedores de ETL. Use-as ao recrutar para cargos de nível intermediário em que os candidatos já tenham alguma experiência prática de trabalho com ETL.
Exemplo de resposta:
Depois que os dados são transportados com sucesso para o data warehouse, os analistas normalmente usam aplicativos de Business Intelligence (BI) de terceiros, como o Tableau, para transformar os dados brutos em gráficos e diagramas, com base nos quais as decisões de negócios podem ser tomadas.
Algumas das mais recentes ferramentas de ETL são equipadas com seus próprios mecanismos de análise de dados.
Exemplo de resposta:
Há vários métodos de teste de ETL, cada um servindo a um propósito específico em diferentes pontos do processo de ETL. Alguns dos tipos mais comuns de teste de ETL são:
Validação da produção: Os dados no sistema de destino são comparados com as fontes para fins de validade
Teste de contagem de origem para destino: O número de registros carregados no data warehouse é verificado quanto à consistência em relação à contagem de registros esperada
Teste de desempenho: O processo de carregamento é testado para garantir que ocorra dentro dos prazos esperados
Teste de transformação de dados: Os dados no sistema de destino são verificados para confirmar que foram transformados corretamente de acordo com os requisitos comerciais
Exemplo de resposta:
Snapshots são cópias somente leitura dos dados da tabela mestre. Antes de fazer uma alteração no data warehouse, um snapshot é tirado e armazenado localmente para referência. Isso funciona para preservar os registros como estavam antes de a alteração ser feita.
Cada snapshot tem três componentes:
A hora em que foi tirado
Uma chave para identificar o snapshot
Os dados relacionados à chave
Exemplo de resposta:
A criação de perfil de dados é o processo de revisão dos dados de origem para identificar sua estrutura, qualidade e inter-relações.
É um precursor importante do estágio de análise, pois garante que os dados de origem apropriados sejam carregados no data warehouse e que sejam transformados de acordo com os requisitos comerciais.
Exemplo de resposta:
Os testes no ETL podem revelar uma grande variedade de problemas. Alguns deles incluem:
Perda de dados entre o sistema de origem e o sistema de destino
Falta de consistência entre os conjuntos de dados
Processamento de consulta demorado
Falhas no sistema devido à escala do data warehouse
Erros cosméticos relacionados a fonte, cor ou alinhamento
Exemplo de resposta:
A maioria dos data warehouses compreende três áreas separadas. São elas:
A área de preparação, onde os dados são extraídos de várias fontes e processados
A área de integração de dados, onde os dados da área de preparação são transformados (às vezes chamada de servidor OLAP)
A área de acesso, onde os dados transformados são recuperados pelos usuários para análise
Exemplo de resposta:
A área de preparação é a zona de aterrissagem dos dados extraídos das fontes e fica entre a fonte e o destino no processo de ETL.
Aqui, os dados são limpos e modificados antes de serem transferidos para o data warehouse. Essa é uma alternativa mais eficiente do que transformar os dados no próprio sistema de destino.
Exemplo de resposta:
A carga inicial refere-se ao processo de carregar todos os dados de fontes primárias no sistema de destino pela primeira vez. Uma vez concluído esse processo, todas as cargas subsequentes no sistema serão cargas incrementais, em que apenas registros novos ou modificados são trazidos.
Abaixo, você encontrará nove perguntas avançadas para desenvolvedores de ETL. Você pode usá-las para avaliar as habilidades e o conhecimento de desenvolvedores sênior de ETL com bastante experiência.
Exemplo de resposta:
É importante identificar os possíveis desafios no início do processo de ETL para evitar gargalos mais adiante no pipeline. Alguns dos problemas e desafios mais comuns dos testes de ETL são:
Perda, corrupção ou duplicação de dados durante o transporte
Baixo desempenho causado por grandes volumes de dados históricos
Requisitos comerciais inatingíveis
Disponibilidade limitada de dados de origem
Ferramentas de ETL desatualizadas
Exemplo de resposta:
O teste de ETL é um processo complexo que deve ser concluído na seguinte ordem:
Definir os requisitos comerciais: Entre em contato com o cliente para entender suas necessidades de relatórios e definir o escopo do projeto
Validar as fontes de dados: Realize uma verificação de contagem de dados e garantir que as chaves de verificação estejam em vigor
Projetar a lógica ETL: Projete a planilha de mapeamento, o script SQL e os códigos de transformação
Extrair os dados de origem: Identifique qualquer erro durante a fase de extração
Transformar dados: Certifique-se de que os dados sejam transformados de forma consistente
Carregar os dados: Realize uma verificação de contagem de registros e verifique a precisão dos dados carregados
Processo de revisão: Verifique a validade, o layout e a funcionalidade de exportação do relatório resumido
Arquivar o relatório de teste: Compartilhe os resultados do teste com os stakeholders relevantes
Exemplo de resposta:
Uma boa ferramenta de ETL torna o processo de integração de dados mais eficiente e fácil de usar. Alguns recursos de ETL particularmente úteis são:
Compatibilidade com a nuvem, permitindo maior flexibilidade e melhor manuseio de conjuntos de dados maciços
Integrações de terceiros para conexão com plataformas de ERP e ferramentas de BI
Geração automática de código para reduzir os riscos de erros humanos e acelerar o desenvolvimento
Interface intuitiva para melhorar a navegação do usuário
Ferramentas sofisticadas de depuração, que reduzem a interrupção dos fluxos de dados
Exemplo de resposta:
O ETL é uma fase inicial importante do processo de mineração de dados. Depois que as fontes de dados são identificadas e os requisitos comerciais são definidos, o ETL é realizado para reunir todos os dados históricos em um sistema único e consistente.
A partir daí, os dados são analisados e modelados usando ferramentas de BI. Os cientistas de dados podem então avaliar os dados para tirar conclusões sobre as decisões de negócios.
Exemplo de resposta:
Os dois principais tipos de particionamento em ETL são:
Particionamento de hash: As linhas são atribuídas usando uma chave de hash, o que significa que as partições dependem do algoritmo de hash especificado
Particionamento round-robin: As linhas são atribuídas de forma "round-robin", o que significa que cada partição contém aproximadamente o mesmo número de linhas
Exemplo de resposta:
O teste de regressão é usado após o desenvolvimento de reparos funcionais no data warehouse. Seu objetivo é verificar se esses reparos prejudicaram outras áreas do processo de ETL.
O teste de regressão deve sempre ser realizado após as modificações do sistema para verificar se elas introduziram novos defeitos.
Exemplo de resposta:
A limpeza de dados é o processo de exclusão permanente de dados obsoletos do data warehouse. Por exemplo, os dados podem ser eliminados quando tiverem dez anos de idade. Isso é feito para liberar espaço no servidor e melhorar o desempenho.
A eliminação de dados geralmente é acompanhada de m arquivamento, em que os dados são movidos para um dispositivo de armazenamento separado para retenção de longo prazo, geralmente para fins legais.
Exemplo de resposta:
Há várias diferenças importantes entre pesquisas conectadas e não conectadas:
As pesquisas conectadas retornam várias colunas da mesma linha, enquanto as pesquisas não conectadas retornam uma coluna de cada linha
As pesquisas conectadas recebem valores diretamente do pipeline de mapeamento, enquanto as pesquisas não conectadas recebem valores de uma transformação separada
As pesquisas conectadas usam um cache dinâmico ou estático, enquanto as pesquisas não conectadas usam apenas um cache estático
Exemplo de resposta:
A transformação lookup é usada para recuperar valores de uma fonte de dados com base em condições específicas de pesquisa. Há alguns cenários em que isso pode ser necessário, por exemplo, para:
Atualizar uma tabela de dimensão
Verificar se já existem registros em uma tabela
Encontrar um valor específico de uma tabela
As entrevistas são apenas uma parte do que deve ser um processo de seleção de candidatos rigoroso e em várias etapas. É importante recorrer a outras ferramentas e técnicas de recrutamento ao contratar seu próximo desenvolvedor de ETL, para que você possa ter uma visão mais completa do conjunto de habilidades de cada candidato.
As entrevistas funcionam melhor no final do processo seletivo; o uso de avaliações de habilidades e tarefas antecipadamente permite que você exclua candidatos subqualificados em um estágio anterior, ajudando a economizar tempo ao entrevistar apenas os melhores candidatos.
Aqui está um esboço de um processo eficaz de contratação de ETL:
Anúncio de emprego: Certifique-se de indicar as ferramentas de ETL usadas por sua organização no anúncio da vaga e liste as responsabilidades do cargo
Triagem de currículos: Examine os currículos, selecionando os candidatos que possam ter as habilidades de ETL necessárias para o cargo
Avaliação de habilidades: Convide os candidatos pré-selecionados para preencher uma avaliação de habilidades on-line com até cinco testes diferentes; você pode avaliar suas habilidades de ETL, habilidades cognitivas, ou até mesmo seus traços de personalidade ou afinidade cultural
Chamada de triagem: Tenha uma conversa informal com os candidatos para ver se suas expectativas e metas estão alinhadas
Tarefa específica do cargo: Apresente aos candidatos uma tarefa de ETL semelhante ao que eles fariam no cargo, como a criação de um processo automatizado de limpeza de dados
Entrevista: Use as perguntas da entrevista acima, mas lembre-se também de avaliar as habilidades sociais do candidato
Verificação de referências: Faça verificações do histórico e das referências do candidato
Decisão final e oferta de emprego: Tome sua decisão final com base nas habilidades, na personalidade e na cultura e acrescente potencial antes de fazer uma oferta de emprego
A natureza altamente especializada do ETL torna ainda mais importante incluir avaliações práticas de habilidades de programação e tarefas específicas do cargo como parte do processo seletivo.
As amostras de trabalho são um dos indicadores mais eficazes do provável desempenho de um candidato e são usadas por muitas das maiores empresas do mundo, incluindo o Google. Entrevistas estruturadas, em que você faz as mesmas perguntas a todos os entrevistados na mesma ordem, lhe ajudarão a avaliar com precisão o desempenho deles e a limitar a parcialidade.
Se você já tiver uma boa ideia da experiência em ETL do candidato no momento da entrevista, faça algumas perguntas específicas sobre ETL e concentre-se nas habilidades interpessoais e na personalidade do candidato. Qualquer decisão de contratação deve levar em conta a atitude tanto quanto a aptidão.
Ao usar perguntas de entrevistas juntamente com avaliações específicas do cargo, você pode criar um processo seletivo à prova de balas capaz de descobrir o melhor desenvolvedor de ETL para sua organização.
Lembre-se de adaptar o processo de recrutamento às necessidades de ETL de sua empresa e aos requisitos específicos do cargo. Isso ajudará você a encontrar um candidato com as habilidades certas e, por fim, maximizará suas chances de fazer uma contratação de longo prazo mutuamente benéfica.
Experimente a TestGorilla gratuitamente hoje e comece a tomar melhores decisões de contratação.
Em minutos, você cria avaliações para selecionar as pessoas candidatas ideais, economizar tempo e contratar profissionais excelentes.
Sem spams. Cancele a assinatura quando quiser.
Com nossos testes, fica muito fácil encontrar a pessoa certa para sua vaga e tomar decisões acertadas e justas durante todo o processo.