O que é DistCp no Hadoop?
O que é DistCp no Hadoop?

Vídeo: O que é DistCp no Hadoop?

Vídeo: O que é DistCp no Hadoop?
Vídeo: Hadoop Day to Day Operations - Distcp - Data back ups and migration 2024, Maio
Anonim

DistCp (cópia distribuída) é uma ferramenta usada para grandes cópias inter / intracluster. Usa MapReduce para efetuar sua distribuição, tratamento e recuperação de erros e relatórios. Ele expande uma lista de arquivos e diretórios na entrada para mapear tarefas, cada uma das quais copiará uma partição dos arquivos especificados na lista de origem.

Da mesma forma, pode-se perguntar: o Distcp sobrescreve?

Eu também deveria elaborar alguns e explicar que distcp - sobrescrever vai sobrescrever o arquivo, não importa se o tamanho corresponde ou não. Isso atualizará todos os arquivos em hdfs-nn2 que não correspondem em tamanho de hdfs-nn1, bem como excluirá todos os arquivos estranhos.

Da mesma forma, o que é o comando Hadoop FS? O Sistema de Arquivos ( FS ) shell inclui vários tipos de concha comandos que interagem diretamente com o Hadoop Sistema de arquivos distribuído ( HDFS ), bem como outros sistemas de arquivos que Hadoop apoios, como Local FS , HFTP FS , S3 FS , e outros.

Desta forma, como transfiro dados de um Hdfs para outro Hdfs?

Hadoop fs cp - mais fácil maneira de copiar dados de um diretório de origem para outro . Use o hadoop fs -cp [fonte] [destino]. Hadoop fs copyFromLocal - Necessário copiar dados do sistema de arquivos local para HDFS ? Use o hadoop fs -copyFromLocal [fonte] [destino].

Como copio um cluster de um cluster para outro?

Copiando arquivos entre clusters . Você pode copiar arquivos ou diretórios entre diferentes clusters usando o comando hadoop distcp. Você deve incluir uma credencial Arquivo na tua cópia de solicitar então a fonte cacho pode validar que você está autenticado na fonte cacho e o alvo cacho.

Recomendado: