O que é RDD no Scala?
O que é RDD no Scala?

Vídeo: O que é RDD no Scala?

Vídeo: O que é RDD no Scala?
Vídeo: O que é um RDD: Resilient Distributed DataSet no Apache Spark? 2024, Maio
Anonim

Conjuntos de dados distribuídos resilientes ( RDD ) é uma estrutura de dados fundamental do Spark. É uma coleção imutável de objetos distribuídos. RDDs pode conter qualquer tipo de Python, Java ou Scala objetos, incluindo classes definidas pelo usuário. Formalmente, um RDD é uma coleção de registros particionada somente leitura.

Também a questão é: qual é a diferença entre RDD e DataFrame?

RDD – RDD é uma coleção distribuída de elementos de dados espalhados por muitas máquinas no cacho. RDDs são um conjunto de objetos Java ou Scala que representam dados. Quadro de dados - UMA Quadro de dados é uma coleção distribuída de dados organizados em colunas nomeadas. É conceitualmente igual a uma mesa em um banco de dados relacional.

Além disso, como o RDD é distribuído? Resiliente Distribuído Conjuntos de dados ( RDDs ) Eles são um distribuído coleção de objetos, que são armazenados na memória ou em discos de diferentes máquinas de um cluster. Um único RDD pode ser dividido em várias partições lógicas para que essas partições possam ser armazenadas e processadas em diferentes máquinas de um cluster.

como funciona o Spark RDD?

RDDs no Fagulha tem coleção de registros que contêm partições. RDDs no Fagulha são divididos em pequenos blocos lógicos de dados - conhecidos como partições, quando uma ação é executada, uma tarefa é iniciada por partição. Partições em RDDs são as unidades básicas de paralelismo.

O que é RDD ou DataFrame mais rápido?

RDD - Durante a execução de operações simples de agrupamento e agregação RDD API é mais lenta. Quadro de dados - Ao realizar análises exploratórias, criando estatísticas agregadas sobre os dados, dataframes estão mais rápido . RDD - Quando você deseja transformação e ações de baixo nível, usamos RDDs . Além disso, quando precisamos de abstrações de alto nível, usamos RDDs.

Recomendado: