Qual é o mecanismo de processamento de dados por trás do Amazon Elastic MapReduce?
Qual é o mecanismo de processamento de dados por trás do Amazon Elastic MapReduce?

Vídeo: Qual é o mecanismo de processamento de dados por trás do Amazon Elastic MapReduce?

Vídeo: Qual é o mecanismo de processamento de dados por trás do Amazon Elastic MapReduce?
Vídeo: Live 04 - Realizando Deploy do Amazon EMR 2024, Maio
Anonim

Amazon EMR usa o Apache Hadoop como seu motor de processamento de dados . Hadoop é uma estrutura de software Java de código aberto que oferece suporte dados - aplicativos distribuídos intensivos em execução em grandes clusters do Hardware de comodidade.

Além disso, o que é Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) é um Amazon Web Services ( AWS ) ferramenta para processamento e análise de big data. Amazon EMR processa big data em um cluster Hadoop de servidores virtuais em Amazon Elastic Compute Cloud ( EC2 ) e Amazonas Serviço de armazenamento simples ( S3 ).

Além disso, o Amazon EMR é totalmente gerenciado? É um totalmente gerenciado serviço de lago de dados que pode desacoplar o armazenamento de dados dos recursos de computação e, em vez disso, torna os clusters de computação escalonáveis, disponíveis para uso sob demanda e inclui a capacidade de vários clusters acessarem os mesmos conjuntos de dados ao mesmo tempo.

Também se pode perguntar: como funciona o AWS EMR?

Geralmente, quando você processa dados em Amazon EMR , a entrada são dados armazenados como arquivos em seu sistema de arquivos subjacente escolhido, como Amazonas S3 ou HDFS. Esses dados passam de uma etapa para a próxima na sequência de processamento. A etapa final grava os dados de saída em um local especificado, como um Amazonas Balde S3.

Qual é a diferença entre ec2 e EMR?

diferente EMR , EC2 não categoriza os nós escravos em nós principais e de tarefa. Isso aumenta o risco de perder dados HDFS no caso de um nó ser removido / perdido. EC2 usa bibliotecas Apache (s3a) para acessar dados em s3. Por outro lado, EMR usa código proprietário da AWS para ter acesso mais rápido ao s3.

Recomendado: