Índice:

Como posso melhorar o desempenho do meu sqoop?
Como posso melhorar o desempenho do meu sqoop?

Vídeo: Como posso melhorar o desempenho do meu sqoop?

Vídeo: Como posso melhorar o desempenho do meu sqoop?
Vídeo: Aula 14 - Apache Sqoop - Hadoop e SGBDR - Continuação 01 2024, Maio
Anonim

Otimizar atuação , definir a número de tarefas de mapa para um valor inferior a a número máximo de conexões que a suportes de banco de dados. Controlando a quantidade de paralelismo que Sqoop usará para transferir dados é a principal forma de controle a carregar sua base de dados.

Correspondentemente, o que acontece se sqoop falhar entre um processo?

Um típico Sqoop a tarefa que está recebendo dados de um banco de dados de origem no HDFS copiará os dados para um diretório de destino. O arquivo copiado será excluído se o sqoop falhar sem completar.

Também se pode perguntar: como você consegue paralelismo em sqoop? Controlando Paralelismo . Sqoop importa dados em paralelo da maioria das fontes de banco de dados. Você pode especificar o número de tarefas de mapa (processos paralelos) a serem usadas para executar a importação usando o argumento -m ou --num-mappers. Cada um desses argumentos leva um valor inteiro que corresponde ao grau de paralelismo empregar

Conseqüentemente, como posso melhorar o desempenho da minha consulta do Hive?

Abaixo está a lista de práticas que podemos seguir para otimizar as consultas do Hive

  1. Ative a compactação no Hive.
  2. Otimize as associações.
  3. Evite a classificação global no Hive.
  4. Habilite o Tez Execution Engine.
  5. Otimize o operador LIMIT.
  6. Habilite a execução paralela.
  7. Ative o modo Mapreduce Strict.
  8. Redução única para Multi Grupo BY.

Como funciona a divisão sqoop?

Ele pode ser usado para aprimorar o desempenho de importação, alcançando maior paralelismo. Sqoop cria divisões com base em valores em uma coluna particular da tabela que é especificada por - dividir -Pelo usuário por meio do comando de importação. Se não estiver disponível, a chave primária da tabela de entrada é usada para criar o divisões.

Recomendado: