Como utilizar o PySpark no Google Colab
Você irá descobrir neste post como rodar seus primeiros códigos PySpark direito no navegador, de maneira gratuita, sem precisar instalar nada e utilizando apenas sua conta do Google
Na publicação anterior [Como instalar o PySpark e Jupyter Notebook] descobrimos como o PySpark pode ser instalado e configurado em seu computador pessoal com sistema operacional Linux. Embora este processo de instalação seja relativamente simples, você pode encontrar impeditivos pelo caminho, como, por exemplo, ter um sistema operacional com Windows.
Diante disso, nesta publicação, vamos aprender como o PySpark pode ser utilizado direito no navegador de seu computador, tablet ou até mesmo celular, utilizando apenas sua conta do Google, tudo isso no ambiente amigável e acessÃvel do Google Colab.
O que é o Google Colab?
O Google Colab, também conhecido como apenas "Colab", é um ambiente completo de desenvolvimento na nuvem disponibilizado pela Google. São oferecidos todos os mecanismos para desenvolver códigos na linguagem Python ou R utilizando uma conta do Google e salvando os códigos, que chamamos de Jupyter Notebooks compostos por células de códigos, diretamente no Google Drive vinculado à sua conta.
Com o Colab podemos aproveitar todo o poder de bibliotecas populares no Python para transformar, analisar e visualizar dados de uma maneira bem mais eficaz. Ao utilizarmos seus recursos para desenvolvermos códigos Spark, criamos uma poderosa combinação da computação distribuÃda do PySpark com a facilidade de uso do ambiente colaborativo oferecido pelo Colab.
Para começar a desbravar seus recursos e seguir para a próxima etapa em análise e processamernto de dados, basta acessar o Colab utilizando o seguinte link https://colab.research.google.com.
Colocando a mão nos dados
Criando um Jupyter Notebook no Google Colab
Ao acessar o Google Colab você verá uma tela similar à Imagem abaixo, onde estão destacadas as opções para criar um novo Jupyter Notebook (você será redirecionado para fazer login caso escolha essa opção) ou para fazer login direito com a conta do Google.
Além disso, antes de fazer login ou de criar um novo notebook, é interessante ler o material dessa página de apresentação, explorar os recursos do ambiente (como esta barra lateral esquerda onde pode acessar arquivos salvos, variáveis de ambiente, etc.) e assistir o vÃdeo caso nunca tenha utilizado o Google Colab.
Nesta imagem estão destacadas as opções de criar um novo Jupyter Notebook e onde é possÃvel fazer login com a conta do Google |
Na opção destacada na Imagem abaixo é onde você pode criar novas células de código e executá-las no ambiente criado. Caso já queira iniciar com alguma estrutura de código criada, pode utilizar este modelo de Jupyter Notebook que disponibilizamos, basta fazer uma cópia para o seu Google Drive e seguir seus estudos e análises.
Criando uma nova célula de código ou de texto em seu Jupyter Notebook |
Instalando o PySpark no ambiente de execução do Colab
Uma vez feito login, você será redirecionado para uma tela como a da Imagem abaixo. Este já é um notebook que será salvo no seu Google Drive, portanto, é importante dar um nome coerente com o projeto que irá desenvolver (no caso do notebook modelo que disponibilizamos atribuÃmos o nome de PySpark Descomplicado - Blog.ipynb).
Na Imagem abaixo, nesta primeira célula de código, digitamos o comando !pip install pyspark e executamos clicando no Ãcone de play à esquerda da célula. Com isso, ao final podemos ver que no output da célula é informado que o PySpark foi instalado com sucesso e sem erros.
Com este comando você instala o PySpark no seu ambiente do Google Colab em seu Jupyter Notebook |
Vale ressaltar que todas as vezes que o seu ambiente de execução for reiniciado ou for reaberto, estes comandos devem ser executados novamente para que a instalação seja feita no novo ambiente de execução.
Criando uma sessão do PySpark
Os trechos de código abaixo podem ser executados em novas células e são responsáveis por fazer todas as importações básicas mais elementares e essenciais para iniciar a sessão do PySpark.
No primeiro trecho é criada uma sessão para iniciar o PySpark e demos o nome, neste exemplo, de spark. Está é uma variável importante que será utilizada durante algumas operações no seu código. No segundo trecho de importações são listados alguns módulos elementares do PySpark, do Pandas e do Numpy.
Testando a sessão criada
Para testar se tudo ocorreu bem com a criação da sessão do PySpark, basta executar uma célula com a variável spark que criamos e a saÃda (output) deve ser similar à vista na Imagem abaixo. Feito isso, pronto, sem ambiente e sessão estão criados e você já pode começar a explorar as infinitas possibilidades oferecidas por esse poderoso framework.
Testando se a sessão do PySpark foi criada com sucesso |
Testando a criação de um DataFrame simples
Caso prefira fazer um teste mais especÃfico criando realmente algum DataFrame para validar o ambiente e a variável com a sessão, você pode seguir o exemplo abaixo para criar um DataFrame simples com dados manuais.
Caso os dados sejam exibidos como na saÃda abaixo, parabéns, você criou o seu primeiro DataFrame PySpark!
+-----------+---------+ |codigo_loja|nome_loja| +-----------+---------+ |1 |Loja A | |2 |Loja B |
|3 |Loja C | +-----------+---------+
Próximos capÃtulos
Nas próximas postagens vamos focar completamente em apresentar funções e instruções com códigos de exemplo, de maneira simples para facilitar seu processo de aprendizado. Traremos exemplos de resolução de problemas reais de uma forma didática. Portanto, não deixe de ler as próximas postagens se deseja aprender e colocar a mão na massa para desenvolver análises com o PySpark.
Na próxima postagem você irá aprender como ler arquivos reais com a extensão .csv no PySpark.
Aguardo você!
Comentários
Postar um comentário