Big Data: Como instalar o PySpark no Google Colab

Como instalar o PySpark no Google Colab é uma dúvida comum entre aqueles que estão iniciando seus projetos de Data Science para ambientes na nuvem.

O termo Big Data está cada vez mais presente, e mesmo projetos pessoais podem assumir uma grande dimensionalidade devido à quantidade de dados disponíveis.

Como Instalar o PySpark no Google Colab - Python

Para analisar grandes volumes de dados, Big Data, com velocidade, o Apache Spark é uma ferramenta muito utilizada, dada a sua capacidade de processamento de dados e computação paralela.

O Spark foi pensado para ser acessível, oferecendo diversas APIs e frameworks em Python, Scala, SQL e diversas outras linguagens.

PySpark no Google Colab

PySpark é a interface alto nível que permite você conseguir acessar e usar o Spark por meio da linguagem Python. Usando o PySpark, você consegue escrever todo o seu código usando apenas o nosso estilo Python de escrever código.

Já o Google Colab é uma ferramenta incrível, poderosa e gratuita – com suporte de GPU inclusive. Uma vez que roda 100% na nuvem, você não tem a necessidade de instalar qualquer coisa na sua própria máquina.

No entanto, apesar da maioria das bibliotecas de Data Science estarem previamente instaladas no Colab, o mesmo não acontece com o PySpark. Para conseguir usar o PySpark é necessário alguns passos intermediários, que não são triviais para aqueles que estão começando.

Dessa maneira, preparei um tutorial simples e direto ensinando a instalar as dependências e a biblioteca.

Instalando o PySpark no Google Colab

Instalar o PySpark não é um processo direto como de praxe em Python. Não basta usar um pip install apenas. Na verdade, antes de tudo é necessário instalar dependências como o Java 8, Apache Spark 2.3.2 junto com o Hadoop 2.7.

# instalar as dependências
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz
!pip install -q findspark

A próxima etapa é configurar as variáveis de ambiente, pois isso habilita o ambiente do Colab a identificar corretamente onde as dependências estão rodando.

Para conseguir “manipular” o terminal e interagir como ele, você pode usar a biblioteca os.

# configurar as variáveis de ambiente
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.4-bin-hadoop2.7"
# tornar o pyspark "importável"
import findspark
findspark.init('spark-2.4.4-bin-hadoop2.7')

Com tudo pronto, vamos rodar uma sessão local para testar se a instalação funcionou corretamente.

# iniciar uma sessão local e importar dados do Airbnb
from pyspark.sql import SparkSession
sc = SparkSession.builder.master('local[*]').getOrCreate()
# download do http para arquivo local
!wget --quiet --show-progress http://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2019-07-15/visualisations/listings.csv
# carregar dados do Airbnb
df_spark = sc.read.csv("./listings.csv", inferSchema=True, header=True)
# ver algumas informações sobre os tipos de dados de cada coluna
df_spark.printSchema()

Como resultado, você deve ver algo parecido com a imagem abaixo, o que significa que os nossos dados estão rodando corretamente junto ao PySpark.

Para ver o código-fonte completo desse exemplo, clique neste link.

Big Data e Python

A biblioteca PySpark permite você criar seu servidor Apache Spark, trabalhar com grandes volumes de dados e até mesmo fazer streaming em tempo real.

Na minha opinião, o Spark é o melhor framework para trabalhar com Big Data. Tenha certeza que o PySpark vai te ajudar muito ao criar uma interface Python que permita a comunicação entre seu projeto e o servidor.

Neste artigo, o meu objetivo foi unicamente apresentar a biblioteca, além de ensinar como você pode instalá-la em um ambiente de nuvem gratuito, o Google Colab. Aproveite e comece a usar hoje mesmo 🙂

Tags: bid data colab data science machine learning pyspark python spark

Big Data: Como instalar o PySpark no Google Colab

5 motivos para você aprender Python

NLP para analisar Rony Meisler, CEO da Reserva

Carlos Melo

Relacionado Artigos

Como Treinar o YOLOv9 em um Dataset Personalizado

YOLOv9: Aprenda a Detectar Objetos

Depth Anything: Como Criar Mapas de Profundidade

k-Nearest Neighbors (k-NN) para Classificação de Estrelas RR Lyrae

Underfitting, Overfitting e o Princípio de Bias-Variance Trade-off

NLP para analisar Rony Meisler, CEO da Reserva

Comentários 2

Deixe um comentário Cancelar resposta

Mais Populares

Introdução ao MediaPipe e Pose Estimation

Geometria da Formação de Imagens: Matrizes, Transformações e Sistemas de Coordenadas

YOLOv9: Aprenda a Detectar Objetos

ORB-SLAM 3: Tutorial Completo para Mapeamento 3D e Localização em Tempo Real

Como Treinar o YOLOv9 em um Dataset Personalizado

Recent posts

Equalização de Histograma com OpenCV e Python

Amazon Go: Visão Computacional em uma Loja sem Caixas

Sua Casa Mais Segura com Visão Computacional

Além da Siri: Como a IA do Iphone pode ser substituída nos próximos anos

Como o Pinterest usa Visão Computacional para encontrar o que você procura

Model Monitoring

Notificações

Navegar por Categoria

Seguir

Categorias

Welcome Back!

Retrieve your password

Add New Playlist

Big Data: Como instalar o PySpark no Google Colab

PySpark no Google Colab

Instalando o PySpark no Google Colab

Big Data e Python

5 motivos para você aprender Python

NLP para analisar Rony Meisler, CEO da Reserva

Relacionado Artigos

Comentários 2

Deixe um comentário Cancelar resposta

Mais Populares

Recent posts

Notificações

Navegar por Categoria

Categorias

Navegar por Tags

Welcome Back!

Retrieve your password

Add New Playlist