O que é reduzir por chave?
O que é reduzir por chave?

Vídeo: O que é reduzir por chave?

Vídeo: O que é reduzir por chave?
Vídeo: COMO TROCAR DE MARCHA E REDUZIR DO JEITO CERTO - TOCADA CHAVE - CG, TITAN, FAN, START 160 2024, Novembro
Anonim

A função ReduzirByKey do Spark RDD mescla os valores de cada chave usando um associativo reduzir função. Isso significa intuitivamente que esta função produz o mesmo resultado quando aplicada repetidamente no mesmo conjunto de dados RDD com várias partições, independentemente da ordem do elemento.

Então, qual é a diferença entre groupByKey e reduceByKey?

groupByKey () serve apenas para agrupar seu conjunto de dados com base em uma chave. reduzByKey () é algo como agrupamento + agregação. reduzByKey pode ser usado quando rodamos em um grande conjunto de dados. aggregateByKey () é logicamente igual a reduzirByKey () mas permite que você retorne o resultado em diferente modelo.

Saiba também, por que reduzir a ação em faísca? Redução de faísca operação é um açao tipo de operação e dispara uma execução DAG completa para todas as instruções lazy alinhadas. Fagulha RDD reduzir função reduz os elementos deste RDD usando o operador binário comutativo e associativo especificado. Redução de faísca operação é quase semelhante a reduzir método em Scala.

Além disso, o que é Pairrdd?

O Spark fornece operações especiais em RDDs contendo pares de chave / valor. Esses RDDs são chamados de RDDs de par. Os RDDs em pares são um bloco de construção útil em muitos programas, pois expõem operações que permitem que você atue em cada chave em paralelo ou reagrupe dados na rede. PairRDDs são pares KEY / VALUE.

ReduzirByKey é uma ação?

reduz () produz uma coleção que não adiciona ao gráfico acíclico direcionado (DAG), então é implementado como um açao . Contudo, reduzByKey () retorna um RDD que é apenas outro nível / estado no DAG, portanto, é uma transformação.

Recomendado: