Como utilizar o PySpark no Google Colab


Você irá descobrir neste post como rodar seus primeiros códigos PySpark direito no navegador, de maneira gratuita, sem precisar instalar nada e utilizando apenas sua conta do Google

Na publicação anterior [Como instalar o PySpark e Jupyter Notebook] descobrimos como o PySpark pode ser instalado e configurado em seu computador pessoal com sistema operacional Linux. Embora este processo de instalação seja relativamente simples, você pode encontrar impeditivos pelo caminho, como, por exemplo, ter um sistema operacional com Windows.

Diante disso, nesta publicação, vamos aprender como o PySpark pode ser utilizado direito no navegador de seu computador, tablet ou até mesmo celular, utilizando apenas sua conta do Google, tudo isso no ambiente amigável e acessível do Google Colab.

O que é o Google Colab?

O Google Colab, também conhecido como apenas "Colab", é um ambiente completo de desenvolvimento na nuvem disponibilizado pela Google. São oferecidos todos os mecanismos para desenvolver códigos na linguagem Python ou R utilizando uma conta do Google e salvando os códigos, que chamamos de Jupyter Notebooks compostos por células de códigos, diretamente no Google Drive vinculado à sua conta.

Com o Colab podemos aproveitar todo o poder de bibliotecas populares no Python para transformar, analisar e visualizar dados de uma maneira bem mais eficaz. Ao utilizarmos seus recursos para desenvolvermos códigos Spark, criamos uma poderosa combinação da computação distribuída do PySpark com a facilidade de uso do ambiente colaborativo oferecido pelo Colab.

Para começar a desbravar seus recursos e seguir para a próxima etapa em análise e processamernto de dados, basta acessar o Colab utilizando o seguinte link https://colab.research.google.com.

Colocando a mão nos dados

Criando um Jupyter Notebook no Google Colab

Ao acessar o Google Colab você verá uma tela similar à Imagem abaixo, onde estão destacadas as opções para criar um novo Jupyter Notebook (você será redirecionado para fazer login caso escolha essa opção) ou para fazer login direito com a conta do Google.

Além disso, antes de fazer login ou de criar um novo notebook, é interessante ler o material dessa página de apresentação, explorar os recursos do ambiente (como esta barra lateral esquerda onde pode acessar arquivos salvos, variáveis de ambiente, etc.) e assistir o vídeo caso nunca tenha utilizado o Google Colab.

Imagem com marcação na opção de criar um novo notebook e outra marcação no botão de fazer login com a conta do Google
Nesta imagem estão destacadas as opções de criar um novo Jupyter Notebook e onde é possível fazer login com a conta do Google


Na opção destacada na Imagem abaixo é onde você pode criar novas células de código e executá-las no ambiente criado. Caso já queira iniciar com alguma estrutura de código criada, pode utilizar este modelo de Jupyter Notebook que disponibilizamos, basta fazer uma cópia para o seu Google Drive e seguir seus estudos e análises.

Imagem de um Jupyter Notebook do Google Colab com destaque para onde é possível clicar e criar um novo campo de código ou de texto markdown
Criando uma nova célula de código ou de texto em seu Jupyter Notebook

 

Instalando o PySpark no ambiente de execução do Colab

Uma vez feito login, você será redirecionado para uma tela como a da Imagem abaixo. Este já é um notebook que será salvo no seu Google Drive, portanto, é importante dar um nome coerente com o projeto que irá desenvolver (no caso do notebook modelo que disponibilizamos atribuímos o nome de PySpark Descomplicado - Blog.ipynb).

Na Imagem abaixo, nesta primeira célula de código, digitamos o comando !pip install pyspark e executamos clicando no ícone de play à esquerda da célula. Com isso, ao final podemos ver que no output da célula é informado que o PySpark foi instalado com sucesso e sem erros.

Imagem com comando para instalar o PySpark no Google Colab
Com este comando você instala o PySpark no seu ambiente do Google Colab em seu Jupyter Notebook


Vale ressaltar que todas as vezes que o seu ambiente de execução for reiniciado ou for reaberto, estes comandos devem ser executados novamente para que a instalação seja feita no novo ambiente de execução.


Criando uma sessão do PySpark

Os trechos de código abaixo podem ser executados em novas células e são responsáveis por fazer todas as importações básicas mais elementares e essenciais para iniciar a sessão do PySpark.

No primeiro trecho é criada uma sessão para iniciar o PySpark e demos o nome, neste exemplo, de spark. Está é uma variável importante que será utilizada durante algumas operações no seu código. No segundo trecho de importações são listados alguns módulos elementares do PySpark, do Pandas e do Numpy.

 

Testando a sessão criada

Para testar se tudo ocorreu bem com a criação da sessão do PySpark, basta executar uma célula com a variável spark que criamos e a saída (output) deve ser similar à vista na Imagem abaixo. Feito isso, pronto, sem ambiente e sessão estão criados e você já pode começar a explorar as infinitas possibilidades oferecidas por esse poderoso framework.

Imagem com a instrução para testar se a sessão do PySpark foi criada com sucesso em um Jupyter Notebook
Testando se a sessão do PySpark foi criada com sucesso

 

Testando a criação de um DataFrame simples

Caso prefira fazer um teste mais específico criando realmente algum DataFrame para validar o ambiente e a variável com a sessão, você pode seguir o exemplo abaixo para criar um DataFrame simples com dados manuais.

Caso os dados sejam exibidos como na saída abaixo, parabéns, você criou o seu primeiro DataFrame PySpark!

+-----------+---------+
|codigo_loja|nome_loja|
+-----------+---------+
|1          |Loja A   |
|2          |Loja B   |
|3 |Loja C | +-----------+---------+

Próximos capítulos

Nas próximas postagens vamos focar completamente em apresentar funções e instruções com códigos de exemplo, de maneira simples para facilitar seu processo de aprendizado. Traremos exemplos de resolução de problemas reais de uma forma didática. Portanto, não deixe de ler as próximas postagens se deseja aprender e colocar a mão na massa para desenvolver análises com o PySpark.

Na próxima postagem você irá aprender como ler arquivos reais com a extensão .csv no PySpark.

Aguardo você!



Comentários

Postagens mais visitadas deste blog

Como ler dados em formato CSV com o PySpark

Como instalar o PySpark e Jupyter Notebook