Apache Spark no Amazon EMR


18/06/2016


image

Apache Spark é um sistema de processamento distribuído de código aberto normalmente usado para grandes cargas de trabalho de dados. Ele utiliza o armazenamento em cache de memória e execução otimizado para desempenho rápido e suporta processamento batch, streaming de análise, aprendizado de máquina, bases de dados de gráficos e consultas ad hoc.

Apache Spark é suportado nativamente pelo Hadoop Yarn no AWS EMR e você pode rapidamente e facilmente criar clusters. Além disso, você pode alavancar recursos adicionais do Amazon EMR, incluindo conectividade ao Amazon S3 usando o sistema de arquivos Amazon EMR (EMRFS). Além disso, você pode usar o Apache Zeppelin para criar de forma interativa e colaborativa a exploração de dados produzidas pelo Spark.

Características e benefícios:
  • Rápida performance - Usando um mecanismo de execução dirigido gráfico acíclico (DAG), o Apache Spark pode criar planos de consulta eficientes para transformações de dados. Ele também armazena dados de entrada, saída e dados intermediários na memória como conjuntos de dados resilientes distribuídos (RDDS), o que permite o processamento rápido, sem custo de I/O, aumentando o desempenho de cargas de trabalho.

  • Desenvolver aplicativos rapidamente - O Spark nativamente suporta Java, Scala e Python, dando-lhe uma variedade de linguagens para a construção de suas aplicações. Além disso, você pode usar consultas SQL ou HiveQL. Além de aplicações em execução, você pode usar a API do Apache Spark de forma interativa com o Python ou Scala diretamente no shell do seu cluster.

  • Criar fluxos de trabalho Diversas - Ele inclui diversas bibliotecas para ajudar a construir aplicações para aprendizagem de máquina (MLlib), processamento de fluxo (Spark streaming), e processamento gráfico (GraphX). Essas bibliotecas são totalmente integradas.

  • A integração com o conjunto de recursos Amazon EMR - De forma integrada, fica fácil trabalhar com integrações ao Amazon EMR, acessando também dados diretamente no S3, economizando recursos de capacidade em instâncias EC2.

Leonardo Matarazzo

Profissional da área de TI há mais de 18 anos, com experiência em grandes Projetos no Brasil e exterior. Membro de diversas comunidades Open Source e evangelista em Cloud e DevOps.

Compartilhe
Back to top