Como ler dados em formato CSV com o PySpark

fevereiro 03, 2024

Nesta postagem vamos aprender como baixar e ler dados em formato CSV utilizando o Python e PySpark

Olá, entusiastas de dados! Hoje construiremos um dos primeiros códigos funcionais no PySpark. Aprenderemos nessa publicação a baixar, ler e ver informações de nossos primeiros dados em formato CSV com o PySpark. Para isso, utilizaremos uma base de dados de casos de Covid, disponibilizados no GitHub citado abaixo nas referências.

No Colab você pode baixar dados diretamente para o ambiente criado e, após efetuar o download, realizar a leitura dos dados utilizando o PySpark. Ambas as etapas estão descritas no trecho de código de exemplo abaixo:

No primeiro trecho de código acima é demonstrado como o Python pode ser utilizado para baixar arquivos utilizando o módulo os e o método os.system, que permite executar qualquer comando do sistema operacional diretamente em seu código. Como o ambiente do Google Colab é Linux, podemos executar o comando curl para baixar dados e links de download. Claro, este mesmo CSV poderia ser baixado manualmente ou por outros meios, o Python possibilita diversas soluções diferentes para o mesmo problema.

Indo além com o Pandas 🐼

Claro que não poderia faltar uma dica extra de como podemos utilizar o Pandas para, não apenas baixar um CSV hospedado no GitHub, mas para também ler, escrever e eventualmente transformar esses dados em um DataFrame PySpark. Tudo isso de maneira simples e detalhada nó código abaixo:

Referências

COVID-19 data in Brazil: cases, deaths, and vaccination at municipal (city) level: https://github.com/wcota/covid19br

Pesquisar este blog

Finanças & Tech Descomplicadas