Utilize o Spark na AWS


15/07/2016


image

O Apache Spark é um sistema de processamento de código aberto distribuído usado comumente para cargas de trabalho de big data. O Apache Spark utiliza o armazenamento em cache na memória e a execução otimizada para desempenho rápido, além de sustentar processamento em lotes geral, análise de streaming, aprendizado de máquina, bancos de dados gráficos e consultas ad hoc.

O Apache HBase no Hadoop YARN é sustentado de modo nativo no Amazon EMR e você pode criar clusters gerenciados do Apache HBase rápido e facilmente por meio do Console de Gerenciamento da AWS, da AWS CLI ou da API do Amazon EMR. Além disso, você pode utilizar recursos adicionais do Amazon EMR, inclusive a conectividade rápida do Amazon S3 usando o Amazon EMR File System (EMRFS), a integração com o mercado spot do Amazon EC2 e comandos de redimensionamento para adicionar ou remover facilmente instâncias do cluster. Você também pode usar o Apache Zeppelin para criar blocos de anotações interativos e de colaboração para a exploração de dados usando o Apache Spark.

Recursos e benefícios

Alto desempenho
Ao usar um mecanismo de execução de gráfico acíclico dirigido (DAG), o Apache Spark pode criar planos de consulta eficientes para transformações de dados. O Apache Spark também armazena dados de entrada, saída e intermediários na memória como conjuntos de dados resilientes e distribuídos (RDDs), o que permite um processamento rápido e sem custos de E/S, aumentando o desempenho de cargas de trabalho iterativas e interativas.

Desenvolva aplicativos rapidamente
O Apache Spark sustenta de modo nativo Java, Scala e Python, oferecendo a você várias linguagens para a criação de aplicativos. Além disso, você pode enviar consultas SQL ou HiveQL para o Apache Spark usando o módulo Spark SQL. Além de executar aplicativos, você pode usar a API do Apache Spark de modo interativo com Python ou Scala diretamente no shell do Apache Spark no seu cluster. Você também pode utilizar o Zeppelin para criar blocos de anotações interativos e colaborativos para a exploração e a visualização de dados.

Crie fluxos de trabalho distintos
O Apache Spark inclui várias bibliotecas para ajudar a criar aplicativos para aprendizado de máquina (MLlib), processamento de streams (Spark Streaming) e processamento de gráficos (GraphX). Essas bibliotecas estão solidamente integradas ao ecossistema do Apache Spark e podem ser utilizadas automaticamente para contemplar vários casos de uso.

Integração com o conjunto de recursos do Amazon EMR
Envie trabalhos do Apache Spark com a etapa de API do Amazon EMR. Use o Apache Spark com o EMRFS para acessar dados diretamente no Amazon S3, economizar custos usando a capacidade spot do Amazon EC2 e executar clusters de longa execução ou temporários para atender à sua carga de trabalho. O Amazon EMR instala e gerencia o Apache Spark no Hadoop YARN, e você também pode adicionar outros aplicativos do Hadoop no seu cluster. Clique aqui para obter mais detalhes sobre os recursos do Amazon EMR.

Leonardo Matarazzo

Profissional da área de TI há mais de 18 anos, com experiência em grandes Projetos no Brasil e exterior. Membro de diversas comunidades Open Source e evangelista em Cloud e DevOps.

Compartilhe
Back to top